
La carrera por hacer que la IA sea tan multilingüe como Europa
La Unión Europea cuenta con 24 idiomas oficiales y decenas más no oficiales hablados en todo el continente. Si se añaden los países europeos fuera de la unión, eso suma al menos una docena más. Sumando dialectos, lenguas en peligro de extinción y lenguas traídas por migrantes a Europa, se llega a contar con cientos de idiomas.
Una cosa en la que muchos de nosotros en tecnología podemos estar de acuerdo es que EE.UU. domina — y eso se extiende a los idiomas en línea. Hay muchas razones para esto, principalmente debido a instituciones, organismos de estándares y empresas americanas que definieron cómo funcionan las computadoras, sus sistemas operativos y el software que ejecutan en sus primeros días. Esto está cambiando, pero al menos por ahora, sigue siendo la norma. Esto también ha llevado a que la mayoría de la web esté en inglés. Un impresionante 50 % de los sitios web están en inglés, aunque solo sea la lengua materna de aproximadamente el 6 % de la población mundial, con el español, alemán y japonés en segundo lugar, pero muy por detrás, cada uno con solo entre el 5-6 % de la web.
A medida que profundizamos en la nueva ola de aplicaciones y servicios impulsados por IA, muchos de ellos se alimentan de datos en modelos de lenguaje a gran escala (LLMs). Dado que gran parte de los datos en estos modelos se obtienen de la web (de manera controvertida en muchos casos), los LLMs entienden y responden principalmente en inglés. Como estamos en el inicio o en medio de un cambio en el paradigma tecnológico provocado por el rápido crecimiento de las herramientas de IA, esto representa un problema, y estamos llevando ese problema a una nueva era.
Europa ya cuenta con varias empresas y proyectos de IA de alto perfil, como Mistral y Hugging Face. Google DeepMind también se originó como una empresa europea. El continente tiene proyectos de investigación que desarrollan modelos de lenguaje para mejorar la comprensión de las herramientas de IA sobre lenguas menos comunes.
Este artículo explora algunas de estas iniciativas, cuestiona su efectividad y pregunta si sus esfuerzos valen la pena o si muchos usuarios prefieren usar versiones en inglés de las herramientas. ¿Mientras Europa busca construir su independencia en IA y ML, el continente tiene las empresas y habilidades necesarias para lograr sus objetivos?
Terminología y marco tecnológico básico
Para entender lo que sigue, no necesitas saber cómo se crean, entrenan o funcionan los modelos. Pero sí es útil comprender algunos conceptos básicos sobre los modelos y su soporte para idiomas humanos.
A menos que la documentación del modelo mencione explícitamente que es multilingüe o cruzado de idiomas, solicitarle o pedirle una respuesta en un idioma no soportado puede hacer que traduzca de un idioma a otro o que responda en un idioma que entiende. Ambas estrategias pueden producir resultados poco confiables e inconsistentes — especialmente en idiomas con pocos recursos.
Mientras los idiomas con muchos recursos, como el inglés, se benefician de datos de entrenamiento abundantes, los idiomas con menos recursos, como el gaélico o el gallego, tienen mucho menos, lo que a menudo conduce a un rendimiento inferior.
El concepto más difícil de explicar respecto a los modelos es “abierto”, que es inusual, ya que el software en general ha tenido una definición bastante clara de “código abierto” desde hace tiempo. No quiero profundizar demasiado en este tema, ya que la definición exacta todavía está en discusión y en evolución. En resumen, incluso cuando un modelo puede llamarse a sí mismo “abierto” y se hace referencia a él como “abierto”, el significado de “abierto” no siempre es el mismo.
Aquí hay otros dos términos útiles que conviene conocer:
El entrenamiento enseña a un modelo a hacer predicciones o decisiones basadas en datos de entrada.
Los parámetros son variables que se aprenden durante el entrenamiento del modelo y que definen cómo el modelo mapea las entradas a las salidas. En otras palabras, cómo entiende y responde a tus preguntas. Cuantos más parámetros tenga, más complejo será el modelo.
Con esa breve explicación, ¿cómo están trabajando las empresas y proyectos europeos de IA para mejorar estos procesos y ampliar el soporte de idiomas europeos?
Hugging Face
Cuando alguien quiere compartir código, generalmente proporciona un enlace a su repositorio de GitHub. Cuando alguien comparte un modelo, generalmente comparte un enlace de Hugging Face. Fundada en 2016 por emprendedores franceses en Nueva York, la empresa participa activamente en la creación de comunidades y apoya firmemente los modelos abiertos. En 2024, lanzó un acelerador de IA para startups europeas y se asoció con Meta para desarrollar herramientas de traducción basadas en el modelo “No Language Left Behind” de Meta. También son una de las fuerzas impulsoras detrás del modelo BLOOM, un innovador modelo multilingüe que estableció nuevos estándares para la colaboración internacional, la apertura y las metodologías de entrenamiento.
Hugging Face es una herramienta útil para tener una idea general del soporte de idiomas en los modelos. Al momento de escribir, Hugging Face lista 1.743.136 modelos y 298.927 conjuntos de datos. Mira su tabla de clasificación de modelos monolingües y conjuntos de datos, y verás el siguiente ranking para modelos y datasets que los desarrolladores marcan (añaden metadatos) como soportando idiomas europeos en ese momento:
Idioma
Código del idioma
Conjuntos de datos
Modelos
Inglés
en
27,702
205,459
Inglés
eng
1,370
1,070
Francés
fra
1,933
850
Español
es
1,745
10,028
Alemán
de
1,442
9,714
Inglés
eng
1,370
1,070
Aquí ya se pueden ver algunos problemas. Estas etiquetas no son inamovibles; la comunidad puede agregar valores libremente. Aunque en su mayoría siguen esas etiquetas, hay cierta duplicidad.
Como puedes observar, los modelos están dominados por el inglés. Un problema similar se presenta en los conjuntos de datos en Hugging Face, que carecen de datos en idiomas no ingleses.
¿Qué significa esto?
Lucie-Aimée Kaffee, responsable de Políticas de la UE en Hugging Face, explicó que las etiquetas indican que un modelo ha sido entrenado para entender y procesar ese idioma o que el conjunto de datos contiene materiales en ese idioma. Agregó que la confusión sobre el soporte de idiomas suele ocurrir durante el entrenamiento. “Cuando entrenas un modelo grande, es común que otros idiomas se Cuelen accidentalmente en el entrenamiento porque había algunos artefactos de ese idioma en ese conjunto de datos”, dijo. “El idioma con el que se etiqueta un modelo suele ser lo que los desarrolladores pretendían que el modelo entendiera”.
Como uno de los destinos principales y más concurridos para desarrolladores e investigadores en modelos, Hugging Face no solo aloja gran parte de su trabajo, sino que también permite crear comunidades abiertas para enseñar a las personas cómo usarlos.
Thomas Wolf, cofundador de Hugging Face, describió Bloom como “el modelo multilingüe abierto más grande del mundo.” Crédito: Shauna Clinton/Web Summit via Sportsfile
Mistral AI
Quizá la empresa europea de IA más reconocida es Mistral AI, de Francia, que por desgracia declinó una entrevista. Sus desafíos multilingües inspiraron en parte este artículo. En la conferencia de desarrolladores FOSDEM en febrero de 2024, la investigadora en lingüística Julie Hunter pidió a uno de los modelos de Mistral una receta en francés, pero respondió en inglés. Sin embargo, 16 meses son una eternidad en desarrollo de IA, y ni la interfaz de chat “Le Chat” ni la ejecución de su modelo de 7B en local reprodujeron ese error en pruebas recientes. Pero curiosamente, 7B sí produjo un error ortográfico en la línea inicial: “boueef”, y podrían seguir apareciendo más.
Aunque Mistral ofrece varios modelos comerciales, herramientas y servicios, sus modelos de uso gratuito son populares, y personalmente suelo usar Mistral 7B para realizar tareas con modelos locales.
Hasta hace poco, la compañía no fue explícita sobre el soporte multilingüe de sus modelos, pero su anuncio del modelo Magistral en la London Tech Week en junio de 2025 confirmó soporte para varios idiomas europeos.
EuroLLM
EuroLLM se creó como una asociación entre la plataforma portuguesa de IA Unbabel y varias universidades europeas para comprender y generar texto en todos los idiomas oficiales de la Unión Europea. El modelo también incluye idiomas no europeos muy hablados por comunidades inmigrantes y principales socios comerciales, como hindi, chino y turco.
Al igual que con otros proyectos de modelos abiertos en este artículo, su trabajo fue en parte financiado por el programa Conjunto de Computación de Alto Rendimiento de la UE (EuroHPC JU). Muchos de ellos comparten nombres y objetivos similares, lo que puede resultar confuso. EuroLLM fue uno de los primeros, y como me indicó Ricardo Rei, científico investigador senior en Unbabel, el equipo ha aprendido mucho de los proyectos que han seguido desde entonces.
Dado que el negocio principal de Unbabel es la traducción de idiomas, y la traducción es una tarea clave para muchos modelos multilingües, el trabajo en EuroLLM tuvo sentido para la plataforma portuguesa. Antes de EuroLLM, Unbabel ya había estado perfeccionando modelos existentes para crear los suyos propios, que eran demasiado centrados en el inglés.
Uno de los mayores desafíos del equipo fue encontrar suficiente material de entrenamiento para idiomas con pocos recursos. En última instancia, la disponibilidad de material de entrenamiento refleja el número de personas que hablan ese idioma. Una de las fuentes de datos más usadas para entrenar modelos de idiomas europeos es Europarl, que contiene transcripciones de las actividades del Parlamento Europeo traducidas a todos los idiomas oficiales de la UE. También está disponible como conjunto de datos en Hugging Face, gracias a ETH Zürich.
Actualmente, el proyecto cuenta con un modelo de 1.700 millones de parámetros y otro de 9.000 millones, y trabaja en uno de 22.000 millones de parámetros. En todos los casos, los modelos pueden traducir, pero también son de uso general, lo que significa que puedes chatear con ellos de manera similar a ChatGPT, mezclando idiomas y combinándolos como desees.
OpenLLM Europe
OpenLLM Europe no está construyendo nada directamente, pero fomenta una comunidad a nivel europeo de proyectos LLM, específicamente para idiomas medianos y con pocos recursos. No te dejes engañar por el repositorio de GitHub de una página, ya que el servidor de Discord está activo y animado.
OpenEuroLLM, Lumi y Silo
Un proyecto conjunto entre varias universidades y empresas europeas, OpenEuroLLM es uno de los participantes más recientes y grandes en la lista de proyectos financiados por EuroHPC. Esto significa que aún no cuenta con modelos públicos, pero involucra muchas de las instituciones y personas detrás de la familia de modelos Lumi, enfocados en idiomas escandinavos y nórdicos. Su objetivo es crear un modelo multilingüe, proporcionar más conjuntos de datos para otros modelos y cumplir con la ley de IA de la UE.
Hablé con Peter Sarlin de AMD Silo, una de las empresas involucradas en el proyecto y figura clave en el desarrollo de IA en Finlandia y Europa, sobre los planes. Explicó que Finlandia, en particular, cuenta con varios institutos con programas importantes de investigación en IA, incluyendo Lumi, una de las supercomputadoras del EuroHPC. Silo, a través de su producto SiloGen, ofrece modelos de código abierto a clientes, con un fuerte enfoque en soportar idiomas europeos. Sarlin señaló que, si bien la soberanía es una motivación importante para él y Silo para crear y mantener modelos que respalden lenguas europeas, la razón más sólida es expandir el negocio y ayudar a las empresas a construir soluciones para mercados pequeños como Estonia.
“Los modelos abiertos son excelentes bloques constructivos, pero no son tan eficientes como los cerrados, y muchas empresas en los países nórdicos y escandinavos no tienen los recursos para construir herramientas basadas en modelos abiertos”, dijo. “Así, Silo y nuestros modelos pueden cubrir esas brechas.”
Bajo su liderazgo, Silo AI construyó una familia de LLM nórdicos para proteger la diversidad lingüística de la región. Crédito: Silo AI
Los modelos Lumi utilizan una técnica de “entrenamiento cruzado de idiomas” en la que el modelo comparte sus parámetros entre idiomas con muchos recursos y con pocos recursos.
Todo este trabajo previo llevó al proyecto OpenEuroLLM, que Sarlin describe como “la mayor iniciativa de código abierto en IA de Europa hasta ahora, que incluye prácticamente a todos los desarrolladores de IA en Europa aparte de Mistral.”
Aunque muchos esfuerzos están en marcha y obtienen buenos resultados, el problema de los datos de entrenamiento para idiomas con pocos recursos sigue siendo el mayor desafío, sobre todo en un contexto de tendencia hacia modelos con razonamiento más matizado. Las traducciones y el entrenamiento cruzado de idiomas son opciones, pero pueden generar respuestas que suenen poco naturales para los hablantes nativos. Como dijo Sarlin, “No queremos un modelo que parezca un finlandés hablando en inglés.”
OpenLLM Francia
Francia es uno de los países más activos en el desarrollo de IA, con Mistral y Hugging Face a la cabeza. Desde la perspectiva comunitaria, también está OpenLLM Francia. El proyecto (no sorprendentemente) se centra en modelos de idioma francés, con varios modelos de diferentes parámetros y conjuntos de datos, que ayudan a otros proyectos a entrenar y mejorar sus modelos que soportan francés. Los conjuntos de datos incluyen discursos políticos, grabaciones de reuniones, obras de teatro y conversaciones informales. El proyecto también mantiene una tabla de clasificación de modelos en francés en Hugging Face, una de las pocas páginas en línea que evalúan modelos de idiomas europeos de forma activa.
¿Les importa a los europeos la IA multilingüe?
Europa está llena de personas y proyectos que trabajan en modelos multilingües. Pero, ¿les importa a los consumidores? Lamentablemente, obtener datos sobre la preferencia de uso de idioma en herramientas propietarias como ChatGPT o Mistral es casi imposible. Creé una encuesta en LinkedIn preguntando si las personas usan herramientas de IA en su idioma nativo, en inglés o en una mezcla de ambos. Los resultados mostraron una división 50/50 entre inglés y una mezcla de idiomas. Esto podría indicar que el porcentaje de personas que usan IA en un idioma que no sea inglés es mayor de lo que piensas.
Por lo general, las personas usan IA en inglés para el trabajo y en su propio idioma para tareas personales.
Kaffee, una hablante de alemán e inglés, dijo: “Las uso principalmente en inglés porque hablo inglés en el trabajo y con mi pareja en casa. Pero luego, para tareas personales..., uso alemán.”
Kaffee mencionó que Hugging Face está trabajando en un proyecto de investigación que pronto será publicado, que analiza completamente el uso de modelos multilingües en la plataforma. También señaló de manera anécdotica que su uso está en aumento.
“Los usuarios tienen la idea de que los modelos ahora son más multilingües. Y con la accesibilidad que ofrecen modelos como Llama, que son multilingües, creo que eso tuvo un gran impacto en el mundo de la investigación respecto a los modelos multilingües y en la cantidad de personas que desean utilizarlos en su propio idioma.”
Internet siempre se pensó que sería algo global y para todos, pero la estadística de que el 50 % de los sitios están en inglés muestra que nunca fue así realmente. Estamos entrando en una nueva etapa en cómo accedemos a la información y quién la controla. Quizá esta vez, la revolución (de IA) será internacional.


La carrera por hacer que la IA sea tan multilingüe como Europa
Europa quiere que la inteligencia artificial comprenda todos sus idiomas. ¿Podrá superar la dominancia del inglés para hacer que la IA sea realmente multilingüe?