Per la sottotitolazione, gli esseri umani sono ancora la chiave per la tecnologia accessibile guidata dall’AI

Gli umani sono ancora fondamentali per la sottotitolazione guidata dall'AI

La necessità di supervisione umana dei servizi di intelligenza artificiale (AI) continua, con il mondo interconnesso della trascrizione audio, dei sottotitoli e del riconoscimento automatico della voce (ASR) che si unisce alla richiesta di applicazioni che integrino, anziché sostituire, l’apporto umano.

I sottotitoli e i sottotitoli per non udenti svolgono un ruolo vitale nell’offrire accesso ai media e alle informazioni agli spettatori non udenti o ipoudenti, e negli ultimi anni sono diventati sempre più popolari. I sostenitori delle persone disabili hanno da decenni spinto per migliori opzioni di sottotitolazione, evidenziando una necessità che è sempre più rilevante con la proliferazione dei servizi di streaming on-demand. Anche le piattaforme basate su video si sono rapidamente agganciate all’IA, con YouTube che ha annunciato test iniziali di una nuova funzionalità di IA che riassume interi video e TikTok che esplora il suo chat bot.

Quindi, con l’aumento del fervore intorno all’IA come aiuto alle limitazioni della tecnologia, coinvolgere gli ultimi strumenti e servizi di IA nella sottotitolazione automatica potrebbe sembrare un passo logico successivo.

3Play Media, un’azienda di servizi di accessibilità video e sottotitolazione, si è concentrata sull’impatto degli strumenti di IA generativa sui sottotitoli utilizzati principalmente dagli spettatori non udenti e ipoudenti nel suo recente rapporto “2023 State of Automatic Speech Recognition”. Secondo i risultati, gli utenti devono essere consapevoli di molto più della semplice accuratezza quando si introducono nuovi servizi di IA in rapido avanzamento.

L’accuratezza del riconoscimento automatico della voce

Il rapporto di 3Play Media ha analizzato il tasso di errore delle parole (il numero di parole trascritte correttamente) e il tasso di errore formattato (l’accuratezza delle parole e della formattazione in un file trascritto) di diversi motori ASR, o generatori di sottotitoli alimentati da AI. I vari motori ASR sono incorporati in una serie di settori, tra cui notizie, istruzione superiore e sport.

“L’ASR di alta qualità non conduce necessariamente a sottotitoli di alta qualità”, ha scoperto il rapporto. “Per il tasso di errore delle parole, anche i migliori motori hanno ottenuto un’accuratezza di circa il 90 percento, e per il tasso di errore formattato, un’accuratezza di circa l’80 percento, entrambi insufficienti per la conformità legale e l’accuratezza del 99 percento, lo standard del settore per l’accessibilità.”

Il Americans with Disabilities Act (ADA) richiede a governi statali e locali, aziende e organizzazioni non profit che servono il pubblico di “comunicare efficacemente con le persone che hanno disabilità comunicative”, compresi i servizi di sottotitolazione chiusa o in tempo reale per le persone non udenti e ipoudenti. Secondo le regole di conformità della Federal Communications Commission (FCC) per la televisione, i sottotitoli devono essere accurati, sincronizzati, continui e posizionati correttamente nella “misura massima possibile”.

Anche l’accuratezza dei sottotitoli nell’insieme dei dati è variata notevolmente in diversi mercati e casi d’uso. “Le notizie, le reti televisive, il cinema e lo sport sono i più difficili da trascrivere con precisione”, scrive 3Play Media, “poiché questi mercati spesso hanno contenuti con musica di sottofondo, sovrapposizione di discorsi e audio difficile. Questi mercati hanno i tassi medi di errore più alti per il tasso di errore delle parole e il tasso di errore formattato, con le notizie e le reti televisive che sono le meno accurate.”

Sebbene, in generale, le prestazioni siano migliorate rispetto al rapporto del 2022 di 3Play Media, l’azienda ha scoperto che i tassi di errore erano ancora abbastanza alti da richiedere la collaborazione di editor umani per tutti i mercati testati.

Mantenere gli esseri umani nel loop

I modelli di trascrizione a tutti i livelli, dal consumatore all’uso industriale, hanno incorporato la sottotitolazione audio generata da AI da anni. Molti utilizzano già ciò che è noto come sistemi “human-in-the-loop”, in cui un processo a più fasi incorpora sia strumenti ASR (o AI) che editor umani. Aziende come Rev, un altro servizio di sottotitolazione e trascrizione, hanno sottolineato l’importanza degli editor umani nella sincronizzazione audio-visiva, nella formattazione dello schermo e in altre fasi necessarie per rendere completamente accessibili i media visivi.

Il tweet potrebbe essere stato eliminato

I modelli “human-in-the-loop” (noti anche come HITL) sono stati promossi nello sviluppo dell’IA generativa per monitorare meglio i pregiudizi impliciti nei modelli AI e per guidare l’IA generativa attraverso le decisioni umane.

L’Iniziativa sull’accessibilità del World Wide Web Consortium (W3C) ha da tempo mantenuto la sua posizione sulla supervisione umana, come indicato nella sua linea guida per i sottotitoli. “I sottotitoli generati automaticamente non soddisfano le esigenze degli utenti o i requisiti di accessibilità, a meno che non siano confermati come pienamente accurati. Di solito necessitano di una significativa modifica”, afferma la linea guida dell’organizzazione. “I sottotitoli automatici possono essere utilizzati come punto di partenza per lo sviluppo di sottotitoli e trascrizioni accurate.”

E in un rapporto del 2021 sull’importanza delle trascrizioni generate in tempo reale da esseri umani, 3Play Media ha evidenziato simili esitazioni.

“L’IA non ha la stessa capacità di contestualizzazione di un essere umano, il che significa che quando ASR fraintende una parola, c’è la possibilità che venga sostituita con qualcosa di irrilevante o totalmente omessa”, scrive l’azienda. “Sebbene al momento non ci sia un requisito legale definitivo per i tassi di precisione della sottotitolazione in diretta, le normative federali e statali esistenti per la sottotitolazione di contenuti registrati stabiliscono che le sistemazioni accessibili devono fornire un’esperienza paragonabile a quella di uno spettatore udente… Sebbene né l’IA né i sottotitolatori umani possano garantire una precisione del 100%, i metodi più efficaci di sottotitolazione in diretta incorporano entrambi al fine di avvicinarsi il più possibile.”

Segnalazione di allucinazioni

Oltre ai numeri di precisione inferiori ottenuti utilizzando solo ASR, il rapporto di 3Play Media ha evidenziato una preoccupazione esplicita per la possibilità di “allucinazioni” dell’IA, sia sotto forma di inaccurazioni di fatto che di inclusione di intere frasi completamente inventate.

In generale, le allucinazioni basate sull’IA sono diventate un aspetto centrale tra un arsenale di lamentele contro il testo generato dall’IA.

A gennaio, l’organizzazione di controllo delle disinformazioni NewsGuard ha pubblicato uno studio sull’abilità di ChatGPT di generare e fornire a utenti che si fingono “cattivi attori” affermazioni ingannevoli. Ha osservato che il bot dell’IA ha condiviso disinformazione su eventi di cronaca in 80 casi su 100 in risposta a domande chiave legate a un campione di narrazioni false. A giugno, un conduttore radiofonico americano ha intentato una causa per diffamazione contro OpenAI dopo che il suo chatbot, ChatGPT, avrebbe offerto “fatti” errati sul conduttore a un utente alla ricerca di dettagli su un caso in tribunale federale.

Proprio il mese scorso, i leader dell’IA (tra cui Amazon, Anthropic, Google, Inflection, Meta, Microsoft e OpenAI) si sono incontrati con l’amministrazione Biden-Harris “per contribuire a un progresso sicuro, sicuro e trasparente nello sviluppo della tecnologia dell’IA” in vista di un possibile decreto esecutivo sull’uso responsabile dell’IA. Tutte le aziende presenti hanno sottoscritto una serie di otto impegni per garantire la sicurezza, la sicurezza e la fiducia pubblica.

Per l’incorporazione dell’IA nella tecnologia quotidiana e in particolare per gli sviluppatori che cercano altre forme di IA generatrici di testo come una via tracciata per l’accessibilità, imprecisioni come le allucinazioni rappresentano un rischio altrettanto grande per gli utenti, spiega 3Play Media.

“Dal punto di vista dell’accessibilità, le allucinazioni rappresentano un problema ancora più grave: la falsa rappresentazione dell’accuratezza per gli spettatori sordi e ipoudenti”, spiega il rapporto di 3Play. 3Play afferma che, nonostante le prestazioni impressionanti legate alla produzione di frasi ben punteggiate e grammaticalmente corrette, problemi come le allucinazioni attualmente rappresentano un alto rischio per gli utenti.

I leader del settore stanno cercando di affrontare le allucinazioni attraverso un continuo addestramento e alcuni dei maggiori protagonisti della tecnologia, come Bill Gates, sono estremamente ottimisti. Ma coloro che hanno bisogno di servizi accessibili non hanno tempo per aspettare che gli sviluppatori perfezionino i loro sistemi di IA.

“Sebbene sia possibile che queste allucinazioni possano essere ridotte attraverso un affinamento, le conseguenze negative per l’accessibilità potrebbero essere profonde”, conclude il rapporto di 3Play Media. “Gli editori umani rimangono indispensabili per produrre sottotitoli di alta qualità accessibili ai nostri utenti finali principali: le persone sorde e ipoudenti.”

Vuoi altri articoli sula Responsabilità Sociale e l’accessibilità nella tua casella di posta? Iscriviti alla newsletter Top Stories di Mashable oggi stesso.