Hacking AI? Ecco 4 attacchi comuni all’IA, secondo il team di sicurezza di Google

Hacking AI? Here are 4 common AI attacks, according to Google's security team.

Ogni volta che una nuova tecnologia diventa popolare, puoi aspettarti che ci sia qualcuno che cerca di hackerarla. L’intelligenza artificiale, in particolare l’intelligenza artificiale generativa, non fa eccezione. Per affrontare questa sfida, Google ha creato un “team di esperti” circa un anno e mezzo fa per esplorare come gli hacker potrebbero attaccare specificamente i sistemi di intelligenza artificiale.

“Non è disponibile una grande quantità di informazioni sulle minacce rivolte ai sistemi di apprendimento automatico nel mondo reale”, ha detto Daniel Fabian, il responsabile dei team di esperti di Google, in un’intervista a The Register. Il suo team ha già individuato le maggiori vulnerabilità nei sistemi di intelligenza artificiale attuali.

Inoltre: Come i ricercatori hanno scoperto una falla in ChatGPT e cosa potrebbe significare per lo sviluppo futuro dell’intelligenza artificiale

Alcune delle maggiori minacce per i sistemi di apprendimento automatico (ML), spiega il responsabile del team di esperti di Google, sono gli attacchi avversari, l’avvelenamento dei dati, l’iniezione di prompt e gli attacchi backdoor. Questi sistemi di ML includono quelli basati su grandi modelli di linguaggio, come ChatGPT, Google Bard e Bing AI.

Questi attacchi sono comunemente definiti “tattiche, tecniche e procedure” (TTP). “Vogliamo persone che pensino come un avversario”, ha detto Fabian a The Register. “Nello spazio dell’ML, stiamo cercando di anticipare dove andranno gli avversari nel mondo reale.”

Inoltre: Ora l’intelligenza artificiale può violare la tua password ascoltando i clic della tastiera

Il team di esperti di intelligenza artificiale di Google ha recentemente pubblicato un rapporto in cui ha delineato le TTP più comuni utilizzate dagli attaccanti contro i sistemi di intelligenza artificiale.

Attacchi avversari ai sistemi di intelligenza artificiale

Gli attacchi avversari includono la scrittura di input specificamente progettati per ingannare un modello di ML. Ciò comporta un output errato o un output che non si verificherebbe in altre circostanze, compresi risultati che il modello potrebbe essere stato specificamente addestrato a evitare.

Inoltre: ChatGPT risponde in modo errato a più della metà delle domande di ingegneria del software

“L’effetto di un attaccante che genera con successo esempi avversari può variare da trascurabile a critico, e dipende interamente dall’uso del classificatore di intelligenza artificiale”, ha osservato il rapporto del team di esperti di intelligenza artificiale di Google.

Avvelenamento dei dati dell’intelligenza artificiale

Un altro modo comune in cui gli avversari potrebbero attaccare i sistemi di ML è attraverso l’avvelenamento dei dati, che comporta la manipolazione dei dati di addestramento del modello per corrompere il suo processo di apprendimento, ha spiegato Fabian.

“L’avvelenamento dei dati è diventato sempre più interessante”, ha detto Fabian a The Register. “Chiunque può pubblicare cose su Internet, inclusi gli attaccanti, e possono mettere i loro dati avvelenati là fuori. Quindi noi come difensori dobbiamo trovare modi per identificare quali dati sono stati potenzialmente avvelenati in qualche modo.”

Inoltre: Zoom è coinvolto in un problema di privacy dell’intelligenza artificiale

Questi attacchi di avvelenamento dei dati includono l’inserimento intenzionale di dati incorretti, fuorvianti o manipolati nel set di dati di addestramento del modello per influenzare il suo comportamento e i suoi output. Un esempio di ciò sarebbe aggiungere etichette errate alle immagini in un set di dati di riconoscimento facciale per manipolare il sistema in modo da identificare erroneamente volti.

Un modo per prevenire l’avvelenamento dei dati nei sistemi di intelligenza artificiale è proteggere la catena di approvvigionamento dei dati, secondo il rapporto del team di esperti di intelligenza artificiale di Google.

Attacchi di iniezione di prompt

Gli attacchi di iniezione di prompt su un sistema di intelligenza artificiale implicano che un utente inserisca contenuti aggiuntivi in un prompt di testo per manipolare l’output del modello. In questi attacchi, l’output potrebbe risultare in risposte inaspettate, di parte, errate e offensive, anche quando il modello è specificamente programmato contro di esse.

Inoltre: Non siamo pronti per l’impatto dell’intelligenza artificiale generativa sulle elezioni

Dato che la maggior parte delle aziende di intelligenza artificiale si sforza di creare modelli che forniscono informazioni accurate e imparziali, proteggere il modello dagli utenti con intenti maliziosi è fondamentale. Ciò potrebbe includere restrizioni su ciò che può essere inserito nel modello e un monitoraggio accurato di ciò che gli utenti possono inviare.

Attacchi backdoor sui modelli di intelligenza artificiale

Gli attacchi backdoor sono una delle aggressioni più pericolose contro i sistemi di intelligenza artificiale, in quanto possono passare inosservati per un lungo periodo di tempo. Gli attacchi backdoor potrebbero consentire a un hacker di nascondere codice nel modello e sabotare l’output del modello, ma anche rubare dati.

“Da un lato, gli attacchi sono specifici dell’apprendimento automatico e richiedono una grande competenza nella materia per poter modificare i pesi del modello al fine di inserire un backdoor o per eseguire un’affinazione specifica del modello per integrare un backdoor”, ha spiegato Fabian.

Inoltre: Come bloccare il web crawler di addestramento AI di OpenAI dal prelevare i tuoi dati

Questi attacchi possono essere realizzati installando ed sfruttando un backdoor, un punto di accesso nascosto che bypassa l’autenticazione tradizionale, per manipolare il modello.

“D’altro canto, i meccanismi di difesa contro questi attacchi sono molto simili alle migliori pratiche classiche di sicurezza, come ad esempio avere controlli contro utenti malevoli e limitare l’accesso”, ha aggiunto Fabian.

Gli attaccanti possono anche mirare ai sistemi di intelligenza artificiale tramite l’estrazione ed esfiltrazione dei dati di addestramento.

Il team di AI Red di Google

Il nome “red team”, ha spiegato Fabian in un recente post sul blog, deriva “dall’ambito militare e descrive attività in cui una squadra designata assume un ruolo avversario (la ‘red team’) contro la squadra ‘di casa'”.

“I team red tradizionali sono un buon punto di partenza, ma gli attacchi ai sistemi di intelligenza artificiale diventano rapidamente complessi e traggono vantaggio dalla competenza nella materia dell’AI”, ha aggiunto Fabian.

Inoltre: Sei stato coinvolto nell’ultimo data breach? Ecco come scoprirlo

Gli attaccanti devono anche sviluppare la stessa competenza nell’AI, ma Fabian ritiene che il team di AI red di Google sia avanti rispetto a questi avversari grazie alla conoscenza che già possiedono in materia di intelligenza artificiale.

Fabian rimane ottimista sul fatto che il lavoro del suo team favorirà i difensori rispetto agli attaccanti.

“In un prossimo futuro, i sistemi e i modelli di apprendimento automatico renderanno molto più facile identificare le vulnerabilità di sicurezza”, ha detto Fabian. “A lungo termine, ciò favorirà assolutamente i difensori perché potremo integrare questi modelli nel ciclo di vita dello sviluppo del software e assicurarci che il software che rilasciamo non abbia vulnerabilità in primo luogo.”