MAI-Image-2 от Microsoft входит в тройку лучших генераторов изображений на основе ИИ

      Вторая версия внутренней модели изображений Microsoft занимает 3-е место в рейтинге Arena.ai, уступая только Google и OpenAI, и начинает внедрение в Copilot и Bing Image Creator сегодня.

      Год назад Microsoft почти полностью генерировала изображения для Bing и Copilot с помощью моделей OpenAI. В четверг внутренняя команда компании объявила о MAI-Image-2, модели изображений второго поколения, которая дебютировала на третьем месте в рейтинге текст-в-изображение Arena.ai, ставя собственную технологию Microsoft непосредственно за Gemini 3.1 Flash от Google и GPT Image 1.5 от OpenAI.

      Объявление поступило от команды Microsoft AI Superintelligence, внутренней исследовательской группы, которую Мустафа Сулейман создал в ноябре 2025 года и теперь возглавляет на постоянной основе после реорганизации руководства в Microsoft, объявленной всего два дня назад.

      Мустафа Сулейман отошел от своей более широкой роли генерального директора Microsoft AI в понедельник, чтобы сосредоточиться исключительно на этой команде и ее амбициях в области передовых моделей. MAI-Image-2 — первая модель, которая появилась публично с момента этого изменения.

      MAI-Image-1, предшественник, был запущен в октябре 2025 года и дебютировал в десятке лучших на LMArena, том же рейтинге предпочтений, основанном на мнениях пользователей, который тогда имел немного другое название.

      На тот момент это была первая модель генерации изображений Microsoft, разработанная полностью внутри компании, и она была интегрирована в Bing Image Creator и Copilot наряду с DALL-E 3 и GPT-4o. MAI-Image-2 продолжает эту траекторию: созданная с учетом мнений фотографов, дизайнеров и визуальных рассказчиков, она сосредоточена на трех областях, где креативщики отметили наибольшие пробелы.

      Первая — фотореализм, естественное освещение, точные оттенки кожи, окружения с физической текстурой и износом. Microsoft утверждает, что модель предназначена для сокращения пост-продакшн работы, которая в настоящее время существует между генерацией и пригодным для использования выходом.

      Вторая — текст в изображении: MAI-Image-2 создана для обработки читаемых букв в сценах, от вывесок до инфографики и типографических макетов, категория, в которой многие модели изображений все еще испытывают трудности с производством последовательных и точных символов.

      Третья — детальная генерация сцен: плотные композиции, сюрреалистические концепции, кинематографическая рамка и тот вид творческой работы, где точные подсказки и высокая точность имеют наибольшее значение.

      Доступ предоставляется через несколько каналов. MAI Playground, публичная среда тестирования моделей Microsoft на playground.microsoft.ai, уже имеет модель в наличии. MAI-Image-2 также начинает внедрение в Copilot и Bing Image Creator.

      Корпоративные клиенты могут получить доступ к модели через API уже сегодня, и Microsoft сообщает, что доступ к API будет открыт для любого разработчика через Microsoft Foundry «скоро», хотя конкретная дата для этого более широкого доступа не была указана. Доступна коммерческая форма заявки для организаций, заинтересованных в использовании генерации изображений в крупном масштабе.

      В объявлении также отмечается, что кластер вычислений следующего поколения GB200 теперь работает, что является ссылкой на оборудование архитектуры Blackwell от NVIDIA. Подробности о масштабе кластера не были предоставлены. Утверждение об инфраструктуре, похоже, позиционирует контекст для моделей, которые команда суперинтеллекта планирует выпустить в следующем, а не технически проверяемую спецификацию.

      Темп заметен. Microsoft объявила о своей первой внутренней голосовой модели (MAI-Voice-1) и первом предварительном просмотре текстовой модели (MAI-1-preview) в августе 2025 года. MAI-Image-1 последовал в октябре. Теперь, через пять месяцев, вторая модель генерации изображений занимает место в тройке лучших в наиболее часто цитируемом рейтинге изображений, основанном на мнениях пользователей, в этой области.

      Этот ритм предполагает, что команда суперинтеллекта движется с другой скоростью, чем исторически более медленные циклы потребительских продуктов Microsoft, и делает это с оборудованием и инфраструктурой, которые она все больше владеет, а не арендует у OpenAI.

Другие статьи

Uber и Rivian заключили сделку на $1,25 млрд по роботакси Uber инвестирует до 1,25 миллиарда долларов в Rivian до 2031 года, нацеливаясь на парк из до 50 000 автономных роботакси R2 в 25 городах.

DoorDash запускает Задачи DoorDash запустила Tasks, отдельное приложение, которое платит Дашерам за съемку домашних дел и запись речи для обучения моделей ИИ.

Немецкая агротехнологическая компания eternal.ag привлекла 8 миллионов евро. eternal.ag привлекла 8 миллионов евро для развертывания автономных роботов для сбора помидоров, обученных в виртуальных теплицах перед реальным развертыванием.

Parallel привлекла 20 миллионов долларов для развертывания ИИ-агентов в больницах Parallel привлекла 20 миллионов долларов для развертывания ИИ-агентов, которые автоматизируют медицинское кодирование и выставление счетов непосредственно на существующем программном обеспечении больниц.

Ваш почтовый ящик — это бизнес-модель кого-то другого. Это не обязательно должно быть так. Бесплатная электронная почта стоит больше, чем вы думаете. Мы рассматриваем, почему оплата за ваш почтовый ящик может стать самым разумным решением по обеспечению конфиденциальности, которое вы примете в этом году.

Браузер Vivaldi получает настраиваемый погружающий режим, который я хотел бы, чтобы Safari или Chrome предложили. Vivaldi 7.9 предлагает более гибкий режим полного экрана и улучшенное расположение вкладок. Это шаг вперед по сравнению с Chrome и Safari, особенно если вы хотите контролировать свой опыт серфинга.

MAI-Image-2 от Microsoft входит в тройку лучших генераторов изображений на основе ИИ

MAI-Image-2 от Microsoft дебютирует на 3-м месте в рейтинге текстов в изображения Arena.ai, уступая Google и OpenAI, и начинает внедрение в Copilot.