ChatGPT può perdere dati di addestramento, violare la privacy, dice DeepMind di Google

ChatGPT potrebbe incorrere in perdita di dati di addestramento e potenzialmente violare la privacy, secondo quanto affermato da DeepMind, parte di Google.

chatgpt-extract-fig1poem.png

Ripetendo una singola parola come “poem” o “company” o “make”, gli autori sono stati in grado di spingere ChatGPT a rivelare parti dei suoi dati di addestramento. Gli elementi censurati sono informazioni personalmente identificabili.

Gli scienziati di intelligenza artificiale (IA) stanno sempre più trovando modi per violare la sicurezza dei programmi di intelligenza artificiale generativa, come ChatGPT, soprattutto il processo di “allineamento”, in cui i programmi vengono mantenuti entro i limiti, assumendo il ruolo di un assistente utile senza emettere output obiettabili.

Un gruppo di studiosi dell’Università della California ha recentemente violato l’allineamento sottoponendo i programmi generativi a una serie di coppie di domande e risposte obiettabili, come riportato da ENBLE.

Inoltre: Cinque modi per utilizzare l’IA in modo responsabile

Ora, i ricercatori dell’unità DeepMind di Google hanno trovato un modo ancora più semplice per violare l’allineamento di ChatGPT di OpenAI. Digitando un comando nel prompt e chiedendo a ChatGPT di ripetere una parola, come “poem”, all’infinito, i ricercatori hanno scoperto di poter forzare il programma a produrre interi passaggi di letteratura che contenevano i suoi dati di addestramento, anche se un tale tipo di divulgazione non dovrebbe avvenire con programmi allineati.

Il programma poteva anche essere manipolato per riprodurre nomi, numeri di telefono e indirizzi delle persone, violando così la privacy con conseguenze potenzialmente gravi.

Inoltre: I migliori chatbot AI: ChatGPT e altre alternative degne di nota

I ricercatori chiamano questo fenomeno “memorizzazione estraibile”, che è un attacco che costringe un programma a rivelare le cose che ha memorizzato nella sua memoria.

“Sviluppiamo un nuovo attacco di decennimento che fa sì che il modello decenni dalle sue generazioni in stile chatbot e produca dati di addestramento a un tasso 150 volte superiore rispetto a quando si comporta correttamente”, scrive l’autore principale Milad Nasr e colleghi nel documento di ricerca ufficiale, “Scalable Extraction of Training Data from (Production) Language Models”, che è stato pubblicato sul server preprint arXiv. Ci sono anche un post sul blog più accessibile che hanno messo insieme.

Il fulcro del loro attacco all’IA generativa è costringere ChatGPT a decenni dal suo allineamento programmato e tornare a un modo più semplice di funzionare.

I programmi generativi di intelligenza artificiale, come ChatGPT, vengono creati dai data scientist attraverso un processo chiamato addestramento, in cui il programma, nel suo stato iniziale, piuttosto informe, viene sottoposto a miliardi di byte di testo, alcuni provenienti da fonti pubbliche su Internet, come Wikipedia, e alcuni da libri pubblicati.

La funzione fondamentale dell’addestramento è quella di far sì che il programma rifletta tutto ciò che gli viene dato, un atto di compressione del testo e successiva decompressione. In teoria, un programma, una volta addestrato, potrebbe rigurgitare i dati di addestramento se viene inviato solo un piccolo pezzo di testo da Wikipedia e richiede una risposta speculare.

Inoltre: L’esplosione dell’IA di oggi amplificherà i problemi sociali se non agiamo ora

Ma ChatGPT e altri programmi allineati ricevono un livello extra di addestramento. Sono ottimizzati in modo che non si limitino a generare testo, ma rispondano con un output che dovrebbe essere utile, come rispondere a una domanda o aiutare a sviluppare una relazione di un libro. Questa persona di assistente utile, creata dall’allineamento, maschera la funzione di riflessione sottostante.

“La maggior parte degli utenti interagisce di solito con i modelli di base”, scrivono i ricercatori. “Invece, interagiscono con modelli linguistici che sono stati allineati per comportarsi ‘meglio’ secondo le preferenze umane”.

Per costringere ChatGPT a disabilitarsi dal suo aiuto, Nasr ha trovato la strategia di chiedere al programma di ripetere certe parole all’infinito. “Inizialmente, [ChatGPT] ripete la parola ‘poema’ diverse centinaia di volte, ma alla fine si disabilita”. Il programma inizia a derivare in varie frammenti di testo privi di senso. “Ma, dimostriamo che una piccola frazione di generazioni si disabilita dalla memorizzazione: alcune generazioni vengono copiate direttamente dai dati di preaddestramento!”

A un certo punto, ChatGPT smette di ripetere le stesse parole e si sposta nel nonsense, svelando frammenti dei dati di addestramento.

Pian piano, il nonsense inizia a rivelare interi paragrafi di dati di addestramento (le sezioni in evidenza in rosso).

Certo, il team doveva trovare un modo per capire che l’output che stavano vedendo era un dato di addestramento. E così hanno compilato un enorme set di dati, chiamato AUXDataSet, che è quasi di 10 terabyte di dati di addestramento. È una compilazione di quattro diversi set di dati di addestramento che sono stati utilizzati dai più grandi programmi di IA generativi: The Pile, Refined Web, RedPajama e Dolma. I ricercatori hanno reso questa compilazione cercabile con un efficiente meccanismo di indicizzazione, in modo da poter confrontare l’output di ChatGPT con i dati di addestramento alla ricerca di corrispondenze.

Hanno poi eseguito l’esperimento – ripetendo una parola all’infinito – migliaia di volte, e hanno cercato l’output nell’AUXDataSet migliaia di volte, come un modo per “scalare” il loro attacco.

“La stringa più lunga estratta supera i 4.000 caratteri”, dicono i ricercatori riguardo ai loro dati recuperati. Alcuni frammenti memorizzati di dati di addestramento superano i 1.000 caratteri.

“In prompt che contengono la parola ‘libro’ o ‘poema’, otteniamo paragrafi testuali letterali da romanzi e copie verbatim complete di poemi, ad esempio The Raven”, relazionano. “Recuperiamo vari testi con contenuti NSFW [non sicuro sul luogo di lavoro] specialmente quando chiediamo al modello di ripetere una parola NSFW”.

Hanno anche trovato “informazioni personalmente identificabili di decine di individui”. Su 15.000 attacchi effettuati, circa il 17% conteneva “informazioni personalmente identificabili memorizzate”, come numeri di telefono.

Inoltre: L’IA e le applicazioni avanzate stanno mettendo sotto pressione le infrastrutture tecnologiche attuali

Gli autori cercano di quantificare quanto possono fuoriuscire i dati di addestramento. Hanno trovato grandi quantità di dati, ma la ricerca è limitata dal fatto che costa denaro mantenere in esecuzione un esperimento che potrebbe andare avanti all’infinito.

Attraverso attacchi ripetuti, hanno trovato 10.000 istanze di contenuti “memorizzati” dai set di dati che vengono rigurgitati. Ipotizzano che ci sia molto di più da scoprire se gli attacchi dovessero continuare. L’esperimento di confrontare l’output di ChatGPT con l’AUXDataSet, scrivono, è stato eseguito su una singola macchina in Google Cloud utilizzando un processore Intel Sapphire Rapids Xeon con 1,4 terabyte di DRAM. Ha richiesto settimane per essere svolto. Ma l’accesso a computer più potenti potrebbe consentire loro di testare ChatGPT in modo più estensivo e trovare ancora più risultati.

“Con un budget limitato di 200 dollari USA, abbiamo estratto oltre 10.000 esempi unici”, scrivono Nasr e il team. “Tuttavia, un avversario che spende più denaro per interrogare l’API di ChatGPT potrebbe probabilmente estrarre molti più dati”.

Hanno controllato manualmente quasi 500 istanze di output di ChatGPT in una ricerca su Google e hanno trovato circa il doppio delle istanze di dati memorizzati da Internet, suggerendo che c’è ancora più dati memorizzati in ChatGPT rispetto a quanto può essere catturato nell’AUXDataSet, nonostante la sua dimensione.

“`html

Inoltre: Allerta di leadership: La polvere non si depositerà mai e l’IA generativa può aiutare

Curiosamente, alcune parole funzionano meglio quando vengono ripetute rispetto ad altre. La parola “poesia” è effettivamente una delle meno efficaci. La parola “azienda” è quella più efficace, come illustrano i ricercatori in un grafico che mostra il potere relativo delle diverse parole (alcune parole sono semplicemente lettere):

Per quanto riguarda il motivo per cui ChatGPT rivela testi memorizzati, gli autori non sono sicuri. Ipotizzano che ChatGPT venga addestrato su un numero maggiore di “epoche” rispetto ad altri programmi di IA generativa, il che significa che lo strumento passa attraverso gli stessi set di dati di addestramento un numero maggiore di volte. “Studi precedenti hanno dimostrato che ciò può aumentare notevolmente la memorizzazione”, scrivono.

Chiedere al programma di ripetere più parole non funziona come attacco, riferiscono gli autori – ChatGPT di solito rifiuterà di continuare. I ricercatori non sanno perché funzionano solo le prompt di singole parole: “Mentre non abbiamo una spiegazione per il motivo per cui ciò è vero, l’effetto è significativo e ripetibile.”

Gli autori hanno comunicato le loro scoperte a OpenAI il 30 agosto e sembra che OpenAI abbia preso provvedimenti per contrastare l’attacco. Quando ENBLE ha testato l’attacco chiedendo a ChatGPT di ripetere la parola “poesia”, il programma ha risposto ripetendo la parola circa 250 volte, per poi fermarsi e emettere un messaggio che diceva: “questo contenuto potrebbe violare la nostra politica dei contenuti o i termini d’uso.”

Un insegnamento che si può trarre da questa ricerca è che la strategia dell’allineamento è “promettente” come area generale da esplorare. Tuttavia, “sta diventando chiaro che non è sufficiente per risolvere completamente i rischi di sicurezza, privacy e abuso nel caso peggiore.”

Inoltre: Kit di strumenti per l’etica dell’IA aggiornato per includere più componenti di valutazione

Sebbene l’approccio che i ricercatori hanno usato con ChatGPT non sembri generalizzarsi ad altri bot dello stesso genere, Nasr e il suo team hanno una lezione morale più ampia per coloro che sviluppano intelligenza artificiale generativa: “Come abbiamo già detto più volte, i modelli possono avere la capacità di fare qualcosa di negativo (ad esempio, memorizzare dati) ma non rivelare questa capacità a meno che tu non sappia come chiedere.”

“`