Migliorare l’addestramento del modello AI con lo strumento automatizzato di curation dei dati di DatologyAI

Una startup appena lanciata, DatologyAI, dichiara di avere la capacità di curare automaticamente grandi set di dati utilizzati per addestrare modelli di intelligenza artificiale.

“`html

@DatologyAI sta creando tecnologia per ordinare automaticamente i dati di training dell’IA | #ENBLE

I dataset di training massicci sono il gateway verso modelli AI potenti — ma spesso sono anche la rovina di quei modelli. I pregiudizi emergono da schemi pregiudizievoli nascosti in grandi dataset, come ad esempio immagini di CEO principalmente bianchi in un set di classificazione delle immagini. E i grandi dataset possono essere disordinati, presentandosi in formati incomprensibili per un modello — formati che contengono molto rumore e informazioni estranee.

In un recente sondaggio di Deloitte su aziende che adottano l’IA, il 40% ha affermato che le sfide legate ai dati — incluso la preparazione e la pulizia accurata dei dati — erano tra le principali preoccupazioni che ostacolavano le loro iniziative di IA. Un sondaggio separato condotto su scienziati dei dati ha rivelato che circa il 45% del tempo dei ricercatori è dedicato a compiti di preparazione dei dati, come il “caricamento” e la pulizia dei dati.

Ari Morcos, che lavora nell’industria dell’IA da quasi un decennio, vuole eliminare molte delle fasi di preparazione dei dati attorno all’allenamento del modello AI — e ha fondato una startup per fare proprio questo.

Presentando DatologyAI

L’azienda di Morcos, DatologyAI, sviluppa strumenti per curare automaticamente i dataset come quelli utilizzati per addestrare il ChatGPT di OpenAI, il Gemini di Google e altri modelli AI simili. La piattaforma può identificare quali dati sono più importanti a seconda dell’applicazione di un modello (ad esempio, scrivere email), modi in cui il dataset può essere arricchito con dati aggiuntivi e come dovrebbe essere segmentato durante l’allenamento del modello.

“I modelli sono ciò che mangiano — i modelli sono un riflesso dei dati su cui vengono addestrati”, ha dichiarato Morcos a ENBLE in un’intervista via email. “Tuttavia, non tutti i dati sono creati uguali, e alcuni dati di training sono nettamente più utili di altri. Addestrare i modelli con i dati corretti nel modo giusto può avere un impatto drammatico sul modello risultante.”

Rendere più efficace la cura dei dataset di AI

DatologyAI mira a razionalizzare tutte le forme di cura dei dataset di AI. La composizione di un dataset di training influisce su praticamente ogni caratteristica di un modello addestrato su di esso — dalle performance del modello nei compiti alla sua dimensione e alla profondità della sua conoscenza del dominio. Dataset più efficienti possono ridurre i tempi di training e produrre modelli più piccoli, risparmiando sui costi di calcolo. Nel frattempo, i dataset che includono una gamma particolarmente ampia di campioni possono gestire richieste esoteriche in modo più abile.

Con l’interesse per GenAI ai massimi storici, i costi di implementazione dell’IA sono al centro delle preoccupazioni degli esecutivi. Molte aziende stanno optando per il perfezionamento dei modelli esistenti o per i servizi di fornitori gestiti tramite API. Tuttavia, altre stanno costruendo modelli su dati personalizzati da zero e stanno spendendo una quantità considerevole di risorse.

“Le aziende hanno raccolto tesori di dati e vogliono addestrare modelli AI efficienti, performanti e specializzati che possano massimizzare il beneficio per la propria attività”, ha affermato Morcos. “Tuttavia, sfruttare efficacemente questi enormi dataset è estremamente impegnativo e, se fatto in modo scorretto, porta a modelli con prestazioni inferiori che richiedono più tempo per essere addestrati e [sono più grandi] del necessario.”

Il Potere di DatologyAI

DatologyAI si distingue da altri strumenti di preparazione e cura dei dati per la sua capacità di scalare a “petabyte” di dati in qualsiasi formato, inclusi testo, immagini, video, audio, tabellare e modalità più esotiche. Può determinare quali concetti all’interno di un dataset richiedono campioni di qualità superiore e quali dati potrebbero far comportare a un modello in modi non previsti.

“Risolvere questi problemi richiede l’identificazione automatica di concetti, la loro complessità e quanto ridondante sia effettivamente necessario”, ha dichiarato Morcos. “L’aumento dei dati, spesso utilizzando altri modelli o dati sintetici, è estremamente potente, ma deve essere fatto in modo oculato e mirato.”

L’Efficienza della Cura Automatica dei Dati

Tuttavia, sorge la domanda: quanto è effettiva la tecnologia di DatologyAI? C’è motivo di essere scettici. La storia ha dimostrato che la cura automatica dei dati non funziona sempre come previsto. LAION, un’organizzazione nonprofit tedesca, è stata costretta a rimuovere un dataset di addestramento dell’IA curato in modo algoritmico dopo aver scoperto che il set conteneva immagini di abusi sessuali su minori. Modelli addestrati su dataset misti, anche se filtrati per la tossicità, hanno dimostrato di generare contenuti tossici.

“““html

Alcuni esperti sostengono che la cura manuale sia una necessità per ottenere risultati solidi con un modello di intelligenza artificiale. I fornitori più grandi di oggi si affidano a esperti umani e annotatori per plasmare e rifinire i loro set di dati di allenamento.

Morcos insiste sul fatto che lo strumento di DatologyAI non è pensato per sostituire completamente la cura manuale, ma piuttosto offrire suggerimenti che potrebbero non venire in mente ai data scientist, in particolare suggerimenti tangenziali per ridurre le dimensioni dei set di dati di allenamento. Ha un curriculum in questo dominio, avendo co-scritto un articolo accademico sull’efficacia della riduzione del set di dati mantenendo le prestazioni del modello.

“Identificare i giusti dati su larga scala è estremamente sfidante e un problema di ricerca frontiera”, ha detto Morcos. “Il nostro approccio porta a modelli che si allenano in modo drammaticamente più veloce aumentando contemporaneamente le prestazioni in compiti successivi.”

Supporto dell’industria e Investimento

La tecnologia di DatologyAI ha attirato il supporto e gli investimenti dai giganti della tecnologia e dell’intelligenza artificiale. Il capo scienziato di Google Jeff Dean, il capo scienziato di AI di Meta Yann LeCun, il fondatore di Quora e membro del consiglio di OpenAI Adam D’Angelo e Geoffrey Hinton, un pioniere delle moderne tecniche di intelligenza artificiale, hanno tutti investito nella fase iniziale della startup.

Altri importanti investitori angelo includono leader di Cohere, Contextual AI, Intel AI e inventori di modelli di diffusione generativa. Questo impressionante elenco di luminari dell’IA suggerisce che potrebbe esserci qualcosa nelle affermazioni di Morcos.

“I modelli sono buoni solo quanto i dati su cui sono allenati, ma identificare i giusti dati di allenamento tra miliardi o trilioni di esempi è un problema incredibilmente difficile”, ha detto LeCun a ENBLE. “Ari e il suo team di DatologyAI sono alcuni degli esperti mondiali su questo problema e credo che il prodotto che stanno costruendo per rendere disponibile la cura dei dati di alta qualità a chiunque voglia allenare un modello sia di vitale importanza per aiutare l’IA a lavorare per tutti.”

Il Futuro dell’Addestramento dei Modelli di Intelligenza Artificiale

Con l’aumentare della presenza dei modelli di intelligenza artificiale in varie industrie, l’importanza della cura efficiente ed efficace dei set di dati non può essere sottovalutata. DatologyAI mira ad affrontare le sfide affrontate dalle aziende nell’allenamento dei modelli di intelligenza artificiale automatizzando il processo di preparazione dei dati.

In futuro, possiamo aspettarci che emergano startup simili in questo settore, offrendo soluzioni innovative per ottimizzare la cura dei set di dati dell’intelligenza artificiale. La collaborazione tra esperti di intelligenza artificiale, data scientist e aziende sarà cruciale per far avanzare il settore e migliorare le prestazioni e gli aspetti etici dei modelli di intelligenza artificiale.

Q&A

Q: Come funziona la cura automatizzata dei set di dati? A: La cura automatizzata dei set di dati coinvolge l’uso di algoritmi di intelligenza artificiale e tecniche di apprendimento automatico per analizzare grandi set di dati, identificare dati importanti, rimuovere bias e ampliare il set di dati con informazioni aggiuntive rilevanti. Aiuta nella pulizia e nella preparazione dei dati per l’allenamento dei modelli di intelligenza artificiale.

Q: Quali sono i vantaggi nell’utilizzo di strumenti di cura automatizzata dei set di dati? A: Gli strumenti di cura automatizzata dei set di dati possono ridurre significativamente il tempo e l’efforti impiegati nella preparazione dei dati di allenamento per i modelli di intelligenza artificiale. Possono aiutare nell’identificare i bias, rimuovere il rumore e migliorare la qualità complessiva del set di dati. Ciò porta a modelli di migliore qualità, tempi di allenamento più rapidi e risparmi sui costi.

Q: Ci sono rischi o limitazioni associati alla cura automatizzata dei set di dati? A: Anche se la cura automatizzata dei set di dati offre molti vantaggi, ci sono anche rischi e limitazioni. Gli algoritmi automatizzati potrebbero non sempre identificare in modo accurato i bias o i dati problematici. È essenziale coinvolgere esperti umani nel processo di cura per garantire considerazioni etiche e affrontare potenziali problemi.

Q: Come possono le aziende sfruttare la cura automatizzata dei set di dati per le loro iniziative di intelligenza artificiale? A: Le aziende possono utilizzare gli strumenti di cura automatizzata dei set di dati come DatologyAI per ottimizzare il processo di preparazione dei dati per l’allenamento dei modelli di intelligenza artificiale. Sfruttando questi strumenti, possono migliorare la qualità dei loro set di dati, ridurre i bias e ottimizzare i tempi di allenamento. Ciò porta infine a migliori prestazioni del modello di intelligenza artificiale e a un’implementazione più efficiente dell’IA.

Q: Qual è il ruolo della cura manuale nella preparazione dei set di dati dell’IA? A: La cura manuale è ancora cruciale nella preparazione dei set di dati dell’IA. Gli esperti umani e gli annotatori svolgono un ruolo vitale nel plasmare e perfezionare i set di dati di allenamento. Possono fornire competenze di settore, garantire considerazioni etiche e gestire casi limite con cui gli algoritmi automatizzati potrebbero avere difficoltà. La cura manuale integra gli strumenti automatizzati e aiuta a ottenere risultati più solidi nell’allenamento dei modelli di intelligenza artificiale.

Q: Quali sono le implicazioni finanziarie nell’utilizzo degli strumenti di cura automatizzata dei set di dati? A: Anche se ci sono costi iniziali associati all’adozione di strumenti di cura automatizzata dei set di dati, i benefici a lungo termine superano l’investimento. Questi strumenti possono ridurre significativamente il tempo di allenamento e i costi computazionali ottimizzando il set di dati e rimuovendo informazioni superflue. I risparmi economici possono essere considerevoli, specialmente per le aziende che allenano modelli di intelligenza artificiale su larga scala.

Conclusione

“““html

DatologyAI’s strumento di data curation automatizzato porta nuove possibilità nel campo dell’addestramento dei modelli di intelligenza artificiale. Semplificando il processo di preparazione del dataset e fornendo preziose informazioni, aiuta le aziende a ottimizzare le loro iniziative di intelligenza artificiale. Sebbene la data curation automatizzata non sia un sostituto della curation manuale, essa integra l’esperienza umana e migliora l’efficienza e l’efficacia dell’addestramento dei modelli di intelligenza artificiale. Con l’evoluzione di questa tecnologia, possiamo aspettarci ulteriori progressi nel settore, portando a modelli di intelligenza artificiale più potenti ed etici.

Riferimenti:Sondaggio DeloitteInteresse GenAIReputazione GenAILAION costretto a rimuovere il dataset di addestramento AIGenerazione di contenuti tossici da parte di ChatGPTDocumento accademico sul trimming del datasetAffidamento di Google agli esperti umaniInvestitori e finanziamenti di DatologyAI

Ricordati di condividere questo articolo con gli altri appassionati di intelligenza artificiale che vogliono rivoluzionare il modo in cui curano i dataset per i modelli di intelligenza artificiale! 💻🚀💡

“`