
Гонка за создание многоязычного искусственного интеллекта, сравнимого с Европой
Европейский союз обладает 24 официальными языками и десятками более неофициальных, говорящихся по всему континенту. Если учитывать страны Европы за пределами союза, то это добавляет как минимум дюжину языков. Диалекты, исчезающие языки и языки мигрантов, приехавших в Европу, приводят к тому, что в общей сложности существует сотни языков.
Многим из нас, занимающимся технологиями, очевидно, что доминирует США — и это распространяется на языки в интернете. Есть множество причин этого, в основном связанные с американскими институтами, стандартами и компаниями, определявшими работу компьютеров, операционных систем и программного обеспечения в их зарождающейся эпохе. Это меняется, но по крайней мере в краткосрочной перспективе это остается нормой. Это также привело к тому, что большинство интернет-ресурсов на английском языке. Удивительно, что 50% сайтов на английском, несмотря на то, что на родном языке английский говорят только около 6% населения мира, а следующими по популярности идут испанский, немецкий и японский — все они значительно отстают, каждый занимает только около 5-6% интернета.
По мере того, как мы углубляемся в новую волну приложений и сервисов на базе ИИ, многие из них основаны на данных больших языковых моделей (БЯМ). Так как большая часть данных в этих моделях собирается (часто спорно в случаях) с веб-страниц, БЯМ в основном понимают и отвечают на английском. Находимся ли мы в начале или уже в разгаре смены технологической парадигмы, вызванной быстрым ростом инструментов ИИ, — это проблема, и мы переносим её в новую эпоху.
На континенте уже есть несколько известных компаний и проектов в области искусственного интеллекта, таких как Mistral и Hugging Face. Google DeepMind также возникла как европейская компания. В Европе реализуются исследовательские проекты, разрабатывающие языковые модели для улучшения понимания менее распространённых языков ИИ-инструментами.
В статье рассматриваются эти инициативы, оценивается их эффективность и задается вопрос, насколько их усилия стоят того или многие пользователи продолжают пользоваться английскими версиями инструментов. Когда Европа стремится к независимости в области ИИ и машинного обучения, есть ли у континента компании и навыки, необходимые для достижения целей?
Терминология и основы технологий
Чтобы понять то, что последует, не обязательно разбираться в создании, обучении или работе моделей. Но полезно знать несколько базовых понятий о моделях и их поддержке человеческих языков.
Если документация модели явно не указывает, что она мультиязычная или межъязычная, запрос или просьба дать ответ на неподдерживаемом языке могут привести к непредсказуемым результатам — перестановкам или ответам на языке, который модель понимает. Обе стратегии могут давать ненадёжные и непоследовательные результаты — особенно для языков с меньшими ресурсами.
В то время как языки с богатыми ресурсами, такие как английский, имеют много обучающих данных. Для языков с меньшими ресурсами, например, г vereadores или галисийский, таких данных гораздо меньше, что часто снижает качество работы.
Самую сложную для объяснения концепцию составляет «открытая» модель, что необычно, так как программное обеспечение в целом давно имеет чёткое определение «открытый исходный код». Не хочу заходить слишком глубоко в эту тему, поскольку точное определение всё ещё находится в состоянии изменений и вызывает споры. В общем, даже если модель называется «открытой» и так её используют, значение слова «открытый» не всегда одинаково.
Вот ещё два полезных термина:
Обучение показывает модели, как делать прогнозы или принимать решения на основе входных данных.
Параметры — это переменные, изучаемые в процессе обучения модели, которые определяют, как модель отображает входы в выходы. Иными словами, как она понимает и отвечает на ваши вопросы. Чем больше параметров, тем сложнее модель.
После этого короткого введения возникает вопрос: как европейские компании и проекты в области ИИ работают над улучшением этих процессов для поддержки европейских языков?
Hugging Face
Когда кто-то хочет поделиться кодом, обычно он предоставляет ссылку на свой репозиторий на GitHub. А при обмене моделями — ссылку на Hugging Face. Основанная в 2016 году французскими предпринимателями в Нью-Йорке, компания активно создает сообщества и выступает за открытые модели. В 2024 году она запустила акселератор ИИ для европейских стартапов и заключила партнерство с Meta для разработки переводческих инструментов на базе модели Meta "No Language Left Behind". Также компании принадлежит инициатива BLOOM — прорывная многоязычная модель, установившая новые стандарты международного сотрудничества, открытости и методов обучения.
Hugging Face — удобный инструмент для общего представления о поддержке языков в моделях. На момент написания в платформе представлено 1 743 136 моделей и 298 927 наборов данных. В их лидерборде по моноязычным моделям и наборам данных можно видеть следующую расстановку приоритетов (на момент публикации), отмеченную разработчиками как поддержка европейских языков:
Язык
Код языка
Наборы данных
Модели
Английский
en
27 702
205 459
Английский
eng
1 370
1 070
Французский
fra
1 933
850
Испанский (Español)
es
1 745
10 028
Немецкий (Deutsch)
de
1 442
9 714
Английский
eng
1 370
1 070
Можно заметить проблемы: эти теги не закреплены жестко, сообщество может свободно добавлять значения. В целом их придерживаются, но встречаются дубли.
Очевидно, большинство моделей — на английском. Аналогичная ситуация с наборами данных на Hugging Face, которых очень мало с данными для негерманских языков.
Что это значит?
Люси-Эми Кафее, руководитель политики ЕС в Hugging Face, отметила, что теги показывают, что модель обучена понимать и обрабатывать этот язык или что набор данных содержит материалы именно на нём. Она добавила, что путаница с поддержкой языков часто случается во время обучения. “При обучении крупной модели бывает, что случайно в обучение попадают другие языки, потому что в наборе данных есть arteфакты этого языка,” — сказала она. “Тег модели обычно указывает на язык, который разработчики предполагают, что модель должна понять.”
Hugging Face — один из главных и самых активных центров для разработчиков и исследователей модели, он не только хостит большую часть их работ, но и позволяет создавать внешние сообщества для информирования о способах использования.
Томас Волф, соучеводитель Hugging Face, описал Bloom как “самую крупную в мире открытую многоязычную языковую модель.” Credit: Shauna Clinton/Web Summit via Sportsfile
Mistral AI
Возможно, наиболее известная европейская компания в области ИИ — францу́зская Mistral AI, которая, увы, отказалась от интервью. Её многоязычные задачи частично вдохновили эту статью. На конференции разработчиков FOSDEM в феврале 2024 года лингвистка Джули Хантер спросила одну из моделей Mistral о рецепте по-французски — и получила ответ на английском. Однако 16 месяцев — это вечность в развитии ИИ, и ни интерфейс “Le Chat”, ни запуск модели 7B не повторили ошибку в недавних тестах. Но интересно, что модель 7B в открытом тестировании выявила орфографическую ошибку в начальной строке: “boueef” — и, возможно, появятся и другие.
Хотя Mistral продает несколько коммерческих моделей, инструментов и услуг, её бесплатные модели популярны, и я лично часто использую Mistral 7B для выполнения задач на локальных моделях.
До недавнего времени компания не уточняла наличия мультиязычной поддержки у своих моделей, но анонс модели Magistral на London Tech Week в июне 2025 подтвердил поддержку нескольких европейских языков.
EuroLLM
EuroLLM был создан в партнерстве португальской платформы ИИ Unbabel и нескольких европейских университетов для понимания и генерации текста на всех официальных языках ЕС. Модель также включает нерегиональные языки, широко распространённые в иммигрантских сообществах и у торговых партнёров, такие как хинди, китайский и турецкий.
Как и некоторые другие открытые проекты в области моделей, его работа частично финансировалась программой EU High Performance Computing Joint Undertaking (EuroHPC JU). Многие из них имеют схожие названия и цели, что усложняет их разбор. EuroLLM был одним из первых, и, как рассказал мне руководитель научных исследований Unbabel Рикардо Рей, команда многое усвоила из проектов, последовавших позже.
Поскольку основной бизнес Unbabel — переводчикские услуги, и перевод — ключевая задача для многих мультиязычных моделей, работа над EuroLLM была логичным шагом для португальской платформы. До EuroLLM команда уже совершенствовала существующие модели и обнаружила, что они слишком ориентированы на английский.
Основная сложность заключалась в поиске достаточного объема обучающих данных для языков с меньшими ресурсами. В конечном итоге, количество данных отражает число носителей этого языка. Одним из распространённых источников данных для обучения моделей европейских языков является Europarl — транскрипты деятельности Европейского парламента, переводимые на все официальные языки ЕС. Эта база данных также доступна как набор данных на Hugging Face благодаря ETH Zürich.
В настоящее время у проекта есть модели с 1.7 млрд и 9 млрд параметров, и ведутся работы над моделью в 22 млрд параметров. Во всех случаях модели умеют переводить и работать в режиме общего назначения, так что с ними можно вести диалог, смешивая языки по своему усмотрению.
OpenLLM Europe
OpenLLM Europe не занимается прямым созданием моделей, а способствует формированию единого европейского сообщества проектов на базе ЛЯМ, в основном ориентированных на языки с меньшими ресурсами. Не позволяйте однопейджевому репозиторию на GitHub вводить вас в заблуждение: Discord-канал активен и жив.
OpenEuroLLM, Lumi и Silo
Совместный проект нескольких европейских университетов и компаний, OpenEuroLLM — один из новых и крупных участников в списке проектов, финансируемых EuroHPC. В настоящее время у него нет общедоступных моделей, но в командах участвуют многие организации и специалисты из серии моделей Lumi, фокусирующихся на скандинавских и нордических языках. Проект ставит цель создать многоязычную модель, предоставить больше наборов данных для других моделей и обеспечить соответствие законодательству ЕС по ИИ.
Я поговорил с Петером Сарлиным из AMD Silo, одной из компаний-участниц проекта и ключевой фигурой в развитии финского и европейского ИИ, о планах. Он пояснил, что Финляндия, особенно, располагает несколькими институтами с крупными программами ИИ, включая Lumi, один из сверхкомпьютеров EuroHPC. Silo, через свой продукт SiloGen, предлагает открытые модели для клиентов, с особым акцентом на поддержку европейских языков. Сарлин отметил, что хотя суверенитет является важной мотивацией для него и Silo, гораздо важнее расширение бизнеса и помощь компаниям в создании решений для малых рынков, таких как Эстония.
“Открытые модели — отличные базовые блоки, но по эффективности они уступают закрытым, и многие бизнесы в Нордике и Скандинавии не располагают ресурсами для разработки таких инструментов,” — сказал он. “Так что Silo и наши модели могут заполнить эти пробелы.”
Под руководством Сарлина Silo AI создала северогерманскую LLM-семью для защиты лингвистического разнообразия региона. Credit: Silo AI
Модели Lumi используют методики “кросс-лингвального обучения”, в рамках которых модель делится параметрами между языками с большим и меньшим количеством данных.
Все эти предыдущие разработки привели к созданию проекта OpenEuroLLM, который Сарлин описывает как “самая большая в Европе инициатива по открытым моделям ИИ, включающая практически всех разработчиков в Европе, кроме Mistral.”
Несмотря на множество реализуемых инициатив и их успехи, проблема с обучающими данными для языков с меньшими ресурсами остаётся крупнейшей, особенно в условиях перехода к более тонким моделям с расширенными возможностями рассуждения. Трансляции и межъязычное обучение — варианты, но могут создавать ответы, звучащие неправдоподобно для носителей языка. Как отметил Сарлин: “Нам не нужен такой модель, которая звучит как финн, говорящий по-английски.”
OpenLLM France
Франция — одна из наиболее активных стран в области развития ИИ, где лидируют Mistral и Hugging Face. С точки зрения сообщества, в стране есть и проект OpenLLM France. (Этот проект — логичный для Франции пример): он сосредоточен на разработке моделей французского языка, с несколькими моделями разной емкости и набором данных для их обучения и улучшения поддержки французского. В наборы данных входят дискуссии, записи встреч, театральные постановки и неформальные беседы. Проект также ведет рейтинг моделей французского языка на Hugging Face, являясь одной из немногих страниц с бенчмарками европейских языковых моделей.
Заботятся ли европейцы о мультиязычном ИИ?
Европа полна инициатив и проектов, работающих над многоязычными языковыми моделями. Но заботятся ли об этом пользователи? К сожалению, трудно получить точные данные о предпочтениях по использованию языков в проприетарных инструментах, таких как ChatGPT или Mistral. Я создал опрос в LinkedIn, спрашивая, используют ли люди ИИ-инструменты на родном языке, английском или смеси обоих. Результаты показали равное распределение — 50% за английский и 50% за смешанный язык. Это может означать, что доля пользователей, использующих ИИ на неродных языках, выше, чем кажется.
Как правило, люди используют ИИ на английском для работы и на своём языке — для личных целей.
Кафее, говорящая по-немецки и английски, сказала: “Я использую их в основном на английском, потому что говорю на нём на работе и дома с партнёром. А для личных задач... я использую немецкий.”
Кафее отметила, что Hugging Face занимается исследовательским проектом, который скоро будет опубликован, полностью анализирующим использование мультиязычных моделей на платформе. Она также наблюдает, что использование растёт.
“Пользователи считают, что модели стали более мультиязычными. И благодаря доступности крупных моделей, таких как Llama, мультиязычность стала оказывать значительное влияние на научный мир и число желающих использовать их на своих языках.”
Интернет всегда должен был быть глобальным и для всех, но страшная статистика — 50% сайтов на английском — показывает, что так и не получилось. Мы вступаем в новую фазу доступа к информации и контроля над ней. Может быть, на этот раз революция (в области ИИ) станет международной.


Другие статьи


Гонка за создание многоязычного искусственного интеллекта, сравнимого с Европой
Европа стремится, чтобы искусственный интеллект понимал все ее языки. Смогут ли она преодолеть доминирование английского языка и сделать ИИ по-настоящему многоязычным?