Оказывается, обучение играм, таким как Морской бой, может значительно повысить умственные способности небольших моделей ИИ.

      Преобразовав "Морской бой" в тренировочную площадку для ИИ, исследователи помогли меньшим моделям более эффективно рассуждать.

      Мит-исследователи использовали настройку в стиле "Морского боя", чтобы проверить, могут ли агенты ИИ улучшить сбор информации перед тем, как сделать ход. Результатом стал резкий скачок в производительности для меньших систем, включая одну модель, которая изредка обыгрывала людей и начала выигрывать большинство своих игр после того, как исследователи изменили способ поиска на доске.

      Этот сдвиг направлен прямо на одну из самых больших слабостей современных агентов ИИ. Их часто просят справляться с задачами, где ответ зависит от деталей, которых у них еще нет. Работа MIT предполагает, что лучшее планирование вопросов может сделать более дешевую модель гораздо более способной.

      Насколько умнее она стала

      Тест MIT использовал версию "Морского боя", основанную на вопросах на естественном языке. Один агент ИИ играл роль товарища по команде, пытающегося найти скрытые корабли, в то время как другой имел доступ к доске и отвечал.

      Цифровые тренды

      Самый большой скачок произошел у Llama 4 Scout. MIT сообщил, что меньшая модель сначала обыгрывала людей только в 8% игр. После того как исследователи добавили более продуманную стратегию вывода, она обыгрывала людей 82% времени и опередила более крупную модель на границе, действуя при этом примерно на 1% от стоимости.

      Это число стоит отслеживать, если вас интересуют затраты на ИИ. Модель не выиграла за счет увеличения размера, а выиграла за счет выбора более четких вопросов и лучшего использования каждого ответа.

      Почему "Морской бой" помогает ИИ учиться

      "Морской бой" работает как тест, потому что заставляет агента ИИ действовать с ограниченной информацией. Он не может видеть всю доску, поэтому каждый вопрос должен сужать поиск и подготавливать следующий ход.

      Это хорошо соотносится с практическими инструментами ИИ. Бот поддержки, исследовательский ассистент или агент по планированию часто должен задавать дополнительные вопросы, прежде чем сможет помочь. Когда этот процесс нарушается, модель может упустить ключевую деталь, повторить себя или сделать рекомендацию слишком рано.

      Подход MIT создает давление на это слабое место. Он измеряет, может ли агент собрать правильную информацию перед тем, как дать ответ.

      Куда это может пойти дальше

      Более сложный тест заключается в том, будет ли тот же подход работать за пределами игр. "Морской бой" контролируемый, что делает его легче оценивать, чем открытые рабочие процессы агентов в поиске, поддержке клиентов или программном обеспечении для рабочего места.

      Тем не менее, направление стоит отслеживать. Если меньшие модели научатся задавать более четкие вопросы перед действием, компании смогут создать более дешевые инструменты ИИ, которые будут казаться более способными в повседневном использовании.

      Следующий этап — перенос с игровой доски на реальную работу. Задача с неясными инструкциями, отсутствующими файлами и спешащим пользователем будет намного сложнее для решения.

      Пауло Варгас — выпускник английского языка, ставший репортером, а затем техническим писателем, чья карьера всегда возвращалась к...

      Гемини вскоре может предложить режим устранения неполадок и сэкономить вам поездку к справочным материалам

      Новый режим устранения неполадок Гемини предлагает пошаговые решения с использованием текстовых ответов и интерактивных виджетов

      Google, возможно, случайно показал всем, куда движется Гемини. Согласно TestingCatalog, новый режим устранения неполадок тихо появился в меню выбора модели Гемини для некоторых пользователей. Он находится рядом с существующими опциями, такими как Гемини 3.5 Flash и 3.1 Pro, которые являются стандартными моделями ИИ, между которыми вы уже переключаетесь в приложении.

      Читать далее

      Apple может предложить MacBook Ultra в двух размерах с уникальным OLED-дисплеем

      Новый отчет раскрывает размер дисплея MacBook Ultra, технологии OLED и окно запуска

      Слухи о MacBook Ultra от Apple формируются как один из самых значительных редизайнов Mac за последние годы, и свежий отраслевой отчет предполагает, что он может появиться раньше, чем кто-либо ожидал. Исследовательская компания Omdia выпустила новое исследование о внедрении OLED в ноутбуках, и в нем содержатся некоторые очень конкретные детали о следующем MacBook от Apple. В каких размерах будет доступен MacBook Ultra?

      Читать далее

      Теперь вы можете отправлять электронные письма прямо из ChatGPT в Интернете

      Теперь вы можете составлять, редактировать и отправлять электронные письма прямо внутри ChatGPT в Интернете

      Если вы когда-либо составляли электронное письмо в ChatGPT, а затем вам приходилось копировать его в Gmail или Outlook, чтобы на самом деле отправить его, теперь вы можете пропустить этот дополнительный шаг. OpenAI внедрила возможность отправлять электронные письма прямо из блоков написания в ChatGPT в Интернете, сохраняя весь процесс в рамках одного разговора от начала до конца.

      Читать далее

Другие статьи

Экраны смартфонов собираются войти в область абсурдных частот обновления, как игровые мониторы. 120 Гц когда-то казались избыточными для телефона. Теперь новый утечка предполагает, что OnePlus может стремиться к частотам обновления, которые больше подходят для игрового монитора, чем для смартфона.

Этот ИИ может отличить настоящий онлайн-отзыв от поддельного, и он удивительно точен. Новая система ИИ сочетает текст, изображения и поведение рецензентов для обнаружения поддельных онлайн-отзывов с точностью более 94%, превосходя все существующие методы, с которыми она была протестирована.

Google упрощает следить за выходками ваших любимых личностей в социальных сетях. Google предоставляет создателям новое внимание в Поиске, и это может изменить то, как вы следите за своими любимыми онлайн-персонажами. Обновление предлагает новый способ открытия контента без бесконечного переключения между приложениями.

Snap отправил уведомления студентам во время занятий, несмотря на осознание риска отвлечения. Внутренние документы из исков, поданных более чем 1,400 школьными округами, раскрывают, как Meta, Snap, TikTok и YouTube намеренно нацеливались на студентов, даже в течение учебного времени.

iOS 27 может изменить то, как ваша мышечная память проводит уведомления на телефоне Одно из самых маленьких предполагаемых изменений в iOS 27 может оказаться одним из самых заметных. Если это правда, Apple может попросить миллионы пользователей заново научиться жесту, который они выполняли на протяжении многих лет.

Следующее поколение Siri в iOS 27 может все еще выйти в бета-версии в первые дни. Следующее поколение Siri от Apple может наконец появиться с iOS 27, но новый отчет предполагает, что пользователи могут сначала получить незавершенную версию. Сообщается, что Apple планирует рассматривать ассистента больше как продолжающееся тестирование, чем как полностью отшлифованный релиз.

Оказывается, обучение играм, таким как Морской бой, может значительно повысить умственные способности небольших моделей ИИ.

Исследователи MIT использовали тест в стиле "Морской бой", чтобы показать, как меньшие модели ИИ могут улучшаться, задавая более точные вопросы, что потенциально делает более дешевые ИИ-агенты более полезными без зависимости от более крупных систем.