La corsa a rendere l'IA multilingue come l'Europa

La corsa a rendere l'IA multilingue come l'Europa

      L'Unione europea ha 24 lingue ufficiali e dozzine di altre non ufficiali parlate nel continente. Se si aggiungono i paesi europei al di fuori dell'Unione, ne vengono coinvolti almeno altri dodici. Aggiungendo dialetti, lingue in pericolo di estinzione e lingue portate dai migranti in Europa, si arrivano a centinaia di lingue.

      Una cosa su cui molti di noi nel settore tecnologico potrebbero concordare è che gli Stati Uniti dominano — e ciò si estende anche alle lingue online. Ci sono molte ragioni per questo, soprattutto dovute alle istituzioni americane, agli organismi di standardizzazione e alle aziende che definiscono come funzionano i computer, i loro sistemi operativi e il software che eseguono, ai loro primi anni di sviluppo. Questo sta cambiando, ma almeno per il breve termine, rimane la norma. Ciò ha anche portato alla maggior parte del web in inglese. Un sorprendente 50% dei siti è in inglese, nonostante sia la lingua madre di circa il 6% della popolazione mondiale, con lo spagnolo, il tedesco e il giapponese subito dopo, ma molto distanti, ciascuno tra il 5-6% del web.

      Man mano che ci immergiamo più profondamente nella nuova ondata di applicazioni e servizi alimentati dall’IA, molti sono guidati dai dati in modelli linguistici di grandi dimensioni (LLM). Poiché gran parte dei dati in questi LLM viene prelevata (in modo spesso controverso) dal web, i LLM comprendono e rispondono prevalentemente in inglese. Con l’inizio di o nel mezzo di uno spostamento nel paradigma tecnologico causato dalla rapida crescita degli strumenti di IA, questo rappresenta un problema, e stiamo portando questo problema in una nuova era.

      L’Europa vanta già diverse aziende e progetti di IA di alto profilo, come Mistral e Hugging Face. Anche Google DeepMind è nata come azienda europea. Il continente ha progetti di ricerca che sviluppano modelli linguistici per migliorare la comprensione delle lingue meno comunemente parlate dagli strumenti di IA.

      Questo articolo esplora alcune di queste iniziative, ne mette in discussione l’efficacia e chiede se i loro sforzi valgano davvero la pena o se molti utenti tendano a preferire le versioni in inglese degli strumenti. Mentre l’Europa cerca di costruire la propria indipendenza in campo di IA e ML, il continente dispone delle aziende e delle competenze necessarie per raggiungere i propri obiettivi?

      Terminologia e introduzione alla tecnologia

      Per comprendere quanto segue, non è necessario sapere come vengono creati, addestrati o funzionano i modelli. Tuttavia, è utile conoscere alcune nozioni di base sui modelli e sul supporto alle lingue umane.

      A meno che la documentazione del modello non menzioni esplicitamente che è multilingue o cross-linguale, stimolarlo o chiedergli una risposta in una lingua non supportata potrebbe causarne la traduzione avanti e indietro o una risposta in una lingua che comprende. Entrambe le strategie possono portare a risultati inaffidabili e incoerenti — specialmente in lingue a risorse limitate.

      Mentre le lingue ad alta risorsa, come l’inglese, beneficiano di dati di addestramento abbondanti, le lingue a bassa risorsa, come il gaelico o il galiziano, ne hanno molto meno, il che spesso porta a performance inferiori.

      Il concetto più difficile da spiegare riguardo ai modelli è “aperto,” che è insolito, dato che il software, in generale, ha avuto una definizione abbastanza chiara di “open source” da un po’ di tempo. Non voglio approfondire troppo questo tema, poiché la definizione esatta è ancora fluttuante e controversa. In sintesi, anche quando un modello si definisce “aperto” e viene descritto come “open,” il significato di “aperto” non è sempre lo stesso.

      Ecco due altri termini utili da conoscere:

      - L’addestramento insegna a un modello a fare previsioni o decisioni sulla base di dati di input.

      - I parametri sono variabili apprese durante l’addestramento del modello, che definiscono come il modello mappa gli input agli output. In altre parole, come comprende e risponde alle tue domande. Più sono i parametri, più il modello è complesso.

      Con questa breve spiegazione conclusa, come stanno lavorando le aziende e i progetti europei di IA per migliorare questi processi e supportare meglio le lingue europee?

      Hugging Face

      Quando qualcuno vuole condividere del codice, di solito fornisce un link al proprio repository GitHub. Quando si condivide un modello, invece, di solito si fornisce un link a Hugging Face. Fondata nel 2016 da imprenditori francesi a New York, l’azienda è attiva nel creare comunità e promuove fortemente i modelli open. Nel 2024 ha avviato un acceleratore di IA per startup europee e ha stretto una partnership con Meta per sviluppare strumenti di traduzione basati sul modello “No Language Left Behind” di Meta. Sono anche una delle forze trainanti dietro il modello BLOOM, un innovativo modello multilingue che ha stabilito nuovi standard per la collaborazione internazionale, l’apertura e le metodologie di training.

      Hugging Face è uno strumento utile per avere un’idea generale del supporto linguistico dei modelli. Al momento della stesura, Hugging Face elenca 1.743.136 modelli e 298.927 dataset. Consultando la sua classifica per modelli monolingua e dataset, si può vedere la seguente graduatoria per modelli e dataset che gli sviluppatori etichettano (con metadati) come supportanti le lingue europee al momento della scrittura:

      Lingua

      Codice lingua

      Dataset

      Modelli

      Inglese

      en

      27.702

      205.459

      Inglese

      eng

      1.370

      1.070

      Francese

      fra

      1.933

      850

      Spagnolo

      es

      1.745

      10.028

      Tedesco

      de

      1.442

      9.714

      Inglese

      eng

      1.370

      1.070

      Come si può vedere, i modelli sono dominati dall’inglese. Lo stesso problema si riscontra anche nei dataset su Hugging Face, che mancano di dati in altre lingue.

      Cosa significa tutto questo?

      Lucie-Aimée Kaffee, responsabile delle politiche UE di Hugging Face, ha affermato che le etichette indicano che un modello è stato addestrato a comprendere e processare quella lingua o che il dataset contiene materiali in quella lingua. Ha aggiunto che spesso la confusione riguardo al supporto linguistico si verifica durante l’addestramento: “Quando si addestra un grande modello, è comune che altre lingue vengano accidentalmente coinvolte poiché ci sono artefatti di quella lingua nel dataset,” ha detto. “La lingua con cui un modello viene etichettato di solito è quella che gli sviluppatori intendono che il modello comprenda.”

      Come uno dei principali e più attivi destinatari di sviluppatori e ricercatori di modelli, Hugging Face non ospita solo gran parte del loro lavoro, ma consente anche di creare comunità di supporto per condividere le modalità di utilizzo.

      Thomas Wolf, cofondatore di Hugging Face, ha descritto Bloom come “il più grande modello linguistico multilingue open source al mondo.” Crediti: Shauna Clinton/Web Summit via Sportsfile

      Mistral AI

      Forse la più nota azienda di IA con sede in Europa è la francese Mistral AI, che purtroppo ha declinato un’intervista. Le sue sfide multilingue hanno in parte ispirato questo articolo. Alla conferenza degli sviluppatori FOSDEM di febbraio 2024, la ricercatrice linguistica Julie Hunter ha chiesto a uno dei modelli di Mistral una ricetta in francese, ma ha ricevuto una risposta in inglese. Tuttavia, 16 mesi sono un’eternità nello sviluppo IA, e né l’interfaccia di chat “Le Chat” né il funzionamento del suo modello da 7 miliardi di parametri sono riprodotti negli ultimi test. Ma curiosamente, il modello da 7 miliardi ha prodotto un errore di ortografia nella riga di apertura: “boueef” — e altri potrebbero seguirne.

      Sebbene Mistral venda diversi modelli commerciali, strumenti e servizi, i suoi modelli gratuiti sono molto popolari, e personalmente uso spesso il Mistral 7B per eseguire compiti tramite modelli locali.

      Fino a poco tempo fa, l’azienda non era esplicita riguardo al supporto multilingue dei suoi modelli, ma l’annuncio del modello Magistral alla London Tech Week di giugno 2025 ha confermato il supporto per diverse lingue europee.

      EuroLLM

      EuroLLM è stato creato come partnership tra la piattaforma portoghese di IA Unbabel e diverse università europee per comprendere e generare testo in tutte le lingue ufficiali dell’Unione europea. Il modello include anche lingue non europee largamente parlate dalle comunità di immigrati e dai principali partner commerciali, come Hindi, Cinese e Turco.

      Come alcuni altri progetti di modelli aperti menzionati in questo articolo, il suo lavoro è stato in parte finanziato dal programma di Alto Ricorso di Calcolo ad Alte Prestazioni (EuroHPC JU) dell’UE. Molti di essi condividono nomi e obiettivi simili, rendendo difficile distinguerli tutti. EuroLLM è stato uno dei primi, e come mi ha detto Ricardo Rei, ricercatore senior di Unbabel, il team ha imparato molto dai progetti successivi.

      Poiché il core business di Unbabel è la traduzione linguistica, e la traduzione è un’attività chiave per molti modelli multilingue, il lavoro su EuroLLM ha avuto senso per la piattaforma portoghese. Prima di EuroLLM, Unbabel aveva già affinato modelli esistenti per creare i propri e li aveva trovati tutti troppo centrati sull’inglese.

      Una delle maggiori sfide del team è stata trovare dati di addestramento sufficienti per lingue a risorse limitate. Alla fine, la disponibilità di materiale di formazione riflette il numero di parlanti della lingua. Una delle fonti di dati più usate per addestrare modelli di lingue europee è Europarl, che contiene trascrizioni delle attività del Parlamento Europeo tradotte in tutte le lingue ufficiali dell’UE. È disponibile anche come dataset su Hugging Face, grazie all’ETH Zürich.

      Attualmente, il progetto conta su un modello da 1,7 miliardi di parametri e uno da 9 miliardi di parametri, e sta lavorando su uno da 22 miliardi di parametri. In tutti i casi, i modelli possono tradurre, ma sono anche di uso generale, il che significa che puoi conversare con loro in modo simile a ChatGPT, mescolando diverse lingue.

      OpenLLM Europe

      OpenLLM Europe non sta creando direttamente nulla, ma favorisce una comunità europea di progetti LLM, in particolare per lingue medie e a risorse limitate. Non lasciatevi ingannare dal repository GitHub di una pagina: il server Discord è vivace e attivo.

      OpenEuroLLM, Lumi e Silo

      Un progetto congiunto tra varie università e aziende europee, OpenEuroLLM è uno degli ingressi più recenti e grandi tra i progetti finanziati dal EuroHPC. Questo significa che al momento non ha modelli pubblici, ma coinvolge molti degli istituti e delle persone dietro la famiglia di modelli Lumi, focalizzati su lingue scandinave e norrene. Mira a creare un modello multilingue, fornire più dataset ad altri modelli e conformarsi al Regolamento UE sull’IA.

      Ho parlato con Peter Sarlin di AMD Silo, una delle aziende coinvolte e figura chiave nello sviluppo dell’AI finlandese ed europea, riguardo ai piani. Ha spiegato che la Finlandia, in particolare, ospita diversi istituti con importanti programmi di ricerca sull’IA, tra cui Lumi, uno dei supercomputer parte di EuroHPC. Silo, tramite il suo prodotto SiloGen, offre modelli open source ai clienti, con un forte focus sul supporto alle lingue europee. Sarlin ha sottolineato che, sebbene la sovranità sia una motivazione importante per lui e Silo nel creare e mantenere modelli che supportano le lingue europee, il motivo principale è espandere il business e aiutare le aziende a costruire soluzioni per mercati piccoli come quello dell’Estonia.

      “Modelli aperti sono ottimi punti di partenza, ma non sono performanti come quelli closed, e molte aziende nei Paesi Nordici e Scandivani non hanno le risorse per sviluppare strumenti basati su modelli aperti,” ha detto. “Quindi Silo e i nostri modelli possono intervenire per colmare le lacune.”

      Sotto la guida di Sarlin, Silo AI ha sviluppato una famiglia di LLM nordici per preservare la diversità linguistica della regione. Crediti: Silo AI

      I modelli Lumi utilizzano una tecnica di “addestramento cross-lingua” in cui i parametri sono condivisi tra lingue ad alta e bassa risorsa.

      Tutto questo lavoro iniziale ha portato al progetto OpenEuroLLM, che Sarlin definisce “la più grande iniziativa di intelligenza artificiale open source mai realizzata in Europa, includendo praticamente tutti gli sviluppatori di IA in Europa tranne Mistral.”

      Sebbene molti sforzi siano in corso e siano efficaci, il problema dei dati di addestramento per le lingue a risorse limitate rimane la sfida più grande, soprattutto con il progresso verso modelli di ragionamento più sfumati. Le traduzioni e l’addestramento cross-lingua sono opzioni, ma possono generare risposte che suonano innaturali ai parlanti nativi. Come ha detto Sarlin, “Non vogliamo un modello che suoni come un finlandese che parla finlandese in stile americano.”

      OpenLLM France

      La Francia è uno dei paesi più attivi nello sviluppo dell’IA, con Mistral e Hugging Face in prima linea. Dal punto di vista comunitario, il paese ha anche OpenLLM France. Il progetto (sorprendentemente) si concentra sui modelli linguistici in lingua francese, con diversi modelli di parametri e dataset, che aiutano altri progetti a formare e migliorare i loro modelli che supportano il lingua francese. I dataset includono discorsi politici, registrazioni di riunioni, spettacoli teatrali e conversazioni informali. Il progetto mantiene anche una classifica dei modelli francesi su Hugging Face, una delle poche (attive) pagine di benchmark sui modelli linguistici europei.

      Gli europei si interessano all’IA multilingue?

      L’Europa è piena di persone e progetti che lavorano sui modelli linguistici multilingue. Ma alla gente importa? Purtroppo, ottenere dati sull’uso della lingua di strumenti proprietari come ChatGPT o Mistral è quasi impossibile. Ho creato un sondaggio su LinkedIn chiedendo se le persone usano strumenti di IA nella loro lingua madre, in inglese o in un mix di entrambi. I risultati sono stati una divisione 50/50 tra inglese e il misto di lingue. Questo potrebbe indicare che il numero di persone che usano strumenti di IA in una lingua non inglese è più alto di quanto si pensi.

      In genere, le persone usano strumenti di IA in inglese per il lavoro e nella propria lingua per le attività personali.

      Kaffee, che parla tedesco e inglese, ha detto: “Li uso soprattutto in inglese perché parlo inglese al lavoro e con il mio partner a casa. Ma poi, per attività personali…, uso il tedesco.”

      Kaffee ha menzionato che Hugging Face stava lavorando a un progetto di ricerca che analizzerà completamente l’uso dei modelli multilingue sulla piattaforma. Ha anche notato che, anecdoticamente, il loro utilizzo è in aumento.

      “Gli utenti hanno l’idea che i modelli siano ora più multilingue. E con l’accessibilità attraverso grandi modelli come Llama, che sono multilingue, penso abbia avuto un grande impatto nel mondo della ricerca in merito ai modelli multilingue e al numero di persone che desiderano ora usarli nella propria lingua.”

      Internet avrebbe dovuto essere sempre globale e accessibile a tutti, ma la statistica implacabile che il 50% dei siti è in inglese mostra che non è mai realmente successo così. Stiamo entrando in una nuova fase nel modo in cui accediamo alle informazioni e chi le controlla. Forse questa volta, la rivoluzione (dell’IA) sarà internazionale.

 La corsa a rendere l'IA multilingue come l'Europa  La corsa a rendere l'IA multilingue come l'Europa

Altri articoli

La corsa a rendere l'IA multilingue come l'Europa

L'Europa vuole che l'intelligenza artificiale comprenda tutte le sue lingue. Riesce a superare il dominio dell'inglese per rendere l'IA veramente multilingue?