scusa, non ho capito": L'intelligenza artificiale fraintende le parole di alcune persone più di altre

scusa, non ho capito": L'intelligenza artificiale fraintende le parole di alcune persone più di altre

      L'idea di un assistente di intelligenza artificiale simile a un essere umano con cui poter parlare è rimasta viva nell'immaginario di molti sin dall'uscita di "Her", il film di Spike Jonze del 2013 che racconta di un uomo che si innamora di un'intelligenza artificiale simile a Siri di nome Samantha. Nel corso del film, il protagonista si confronta con i modi in cui Samantha, per quanto possa sembrare reale, non è e non sarà mai umana. Dodici anni dopo, questo non è più materia di fantascienza. Strumenti di intelligenza artificiale generativa come ChatGPT e assistenti digitali come Siri di Apple e Alexa di Amazon aiutano le persone a ottenere indicazioni stradali, a fare la lista della spesa e molto altro. Ma proprio come Samantha, i sistemi di riconoscimento vocale automatico non sono ancora in grado di fare tutto ciò che può fare un ascoltatore umano. Probabilmente avete avuto la frustrante esperienza di chiamare la vostra banca o la vostra società di servizi pubblici e di dovervi ripetere per farvi capire dal bot del servizio clienti digitale all'altra linea. Forse avete dettato una nota sul telefono, per poi passare il tempo a modificare le parole confuse. I ricercatori di linguistica e informatica hanno dimostrato che questi sistemi funzionano peggio per alcune persone che per altre. Tendono a commettere più errori se avete un accento non madrelingua o regionale, se siete neri, se parlate in inglese vernacolare afroamericano, se scambiate il codice, se siete donne, se siete anziani, se siete troppo giovani o se avete un difetto di pronuncia. Orecchio di latta A differenza di voi o di me, i sistemi di riconoscimento vocale automatico non sono quelli che i ricercatori chiamano "ascoltatori comprensivi" Invece di cercare di capire l'interlocutore cogliendo altri indizi utili come l'intonazione o i gesti del viso, si arrendono. Con l'adozione sempre più frequente da parte di aziende ed enti pubblici di strumenti di riconoscimento vocale automatico per ridurre i costi, le persone non hanno altra scelta se non quella di interagire con essi. Ma più questi sistemi vengono utilizzati in settori critici, che vanno dai primi soccorritori, all'assistenza sanitaria, all'istruzione e alle forze dell'ordine, più è probabile che si verifichino gravi conseguenze quando non riescono a riconoscere ciò che le persone dicono. Immaginate che in un futuro prossimo siate rimasti feriti in un incidente stradale. Chiamate il 911 per chiedere aiuto, ma invece di essere collegati a un centralinista umano, ricevete un bot progettato per eliminare le chiamate non di emergenza. Ci vogliono diversi giri per essere capiti, perdendo tempo e aumentando il livello di ansia nel momento peggiore. Cosa causa questo tipo di errore? Alcune delle disuguaglianze che derivano da questi sistemi sono insite nella mole di dati linguistici che gli sviluppatori utilizzano per costruire grandi modelli linguistici. Gli sviluppatori addestrano i sistemi di intelligenza artificiale a comprendere e imitare il linguaggio umano alimentando grandi quantità di testo e di file audio contenenti un vero discorso umano. Se un sistema ottiene alti tassi di accuratezza quando parla con americani bianchi e benestanti di circa 30 anni, è ragionevole pensare che sia stato addestrato utilizzando molte registrazioni audio di persone che corrispondono a questo profilo. Con una raccolta rigorosa di dati da una gamma diversificata di fonti, gli sviluppatori di IA potrebbero ridurre questi errori. Ma costruire sistemi di IA in grado di comprendere le infinite variazioni del linguaggio umano derivanti da fattori quali il sesso, l'età, la razza, la prima o la seconda lingua, lo status socioeconomico, l'abilità e molto altro, richiede risorse e tempo significativi. L'inglese "corretto" Per le persone che non parlano inglese - ovvero la maggior parte delle persone nel mondo - le sfide sono ancora più grandi. La maggior parte dei più grandi sistemi di IA generativa del mondo sono stati costruiti in inglese e funzionano molto meglio in inglese che in qualsiasi altra lingua. Sulla carta, l'IA ha un grande potenziale civico per la traduzione e l'aumento dell'accesso alle informazioni in diverse lingue, ma per ora la maggior parte delle lingue ha un'impronta digitale più piccola, il che rende difficile alimentare modelli linguistici di grandi dimensioni. Anche all'interno delle lingue ben servite da modelli linguistici di grandi dimensioni, come l'inglese e lo spagnolo, l'esperienza varia a seconda del dialetto della lingua che si parla. Al momento, la maggior parte dei sistemi di riconoscimento vocale e dei chatbot di IA generativa riflettono i pregiudizi linguistici dei set di dati su cui sono stati addestrati. È stato dimostrato che l'IA "appiattisce" la diversità linguistica. Ci sono ora startup che offrono di cancellare l'accento dei loro utenti, partendo dal presupposto che la loro clientela principale sia costituita da fornitori di servizi alla clientela con call center in paesi stranieri come l'India o le Filippine. L'offerta perpetua l'idea che alcuni accenti siano meno validi di altri. L'intelligenza artificiale connessa all'uomo migliorerà presumibilmente nell'elaborazione del linguaggio, tenendo conto di variabili come l'accento, il cambio di codice e simili. Negli Stati Uniti, la legge federale obbliga i servizi pubblici a garantire un accesso equo ai servizi indipendentemente dalla lingua parlata. Ma non è chiaro se questo sia un incentivo sufficiente perché l'industria tecnologica si muova verso l'eliminazione delle disuguaglianze linguistiche. Molte persone preferirebbero parlare con una persona reale quando fanno domande su una bolletta o su un problema medico, o almeno avere la possibilità di non interagire con sistemi automatizzati quando cercano servizi chiave. Questo non vuol dire che nella comunicazione interpersonale non si verifichino mai errori di comunicazione, ma quando si parla con una persona reale, questa è predisposta ad essere un ascoltatore comprensivo. Con l'intelligenza artificiale, almeno per ora, o funziona o non funziona. Se il sistema è in grado di elaborare ciò che dite, siete a posto. Roberto Rey Agudo, Research Assistant Professor of Spanish and Portuguese, Dartmouth College Questo articolo è stato ripubblicato da The Conversation con licenza Creative Commons. Leggi l'articolo originale. Ricevi la newsletter di TNW Ricevi le notizie tecnologiche più importanti nella tua casella di posta elettronica ogni settimana. Taggato anche con

scusa, non ho capito": L'intelligenza artificiale fraintende le parole di alcune persone più di altre

Altri articoli

scusa, non ho capito": L'intelligenza artificiale fraintende le parole di alcune persone più di altre

I sistemi di riconoscimento vocale sono meno accurati per le donne e i neri, oltre che per altre categorie demografiche, secondo nuovi studi.