Gemini 3.5 Flash теперь может видеть и контролировать ваш экран, и Google хочет, чтобы предприятия доверяли ему.

TL;DRИспользование компьютера теперь является встроенным инструментом в Gemini 3.5 Flash, заменяя отдельную модель использования компьютера Gemini 2.5 с корпоративными мерами безопасности. Google сделал использование компьютера встроенным инструментом внутри Gemini 3.5 Flash, модели, которую он запустил на I/O 2026 как свою самую быструю агентную ИИ модель. Эта возможность, позволяющая ИИ-агентам видеть экраны, щелкать, печатать и прокручивать в браузерах, мобильных устройствах и настольных ПК, ранее требовала отдельной модели и теперь доступна как родной инструмент через API Gemini и Платформу Агентов Gemini Enterprise, переименованную версию Vertex AI. Обновление означает, что разработчикам больше не нужно вызывать специализированную модель использования компьютера для создания агентов, взаимодействующих с графическими интерфейсами. Вместо этого они могут активировать использование компьютера как один из нескольких инструментов внутри Flash, наряду с выполнением кода, поиском и вызовом функций. Менеджер продукта Матео Квирос описал интеграцию как предоставление Flash возможности видеть, рассуждать и действовать на экранах. Google впервые выпустил отдельную модель использования компьютера Gemini в октябре 2025 года, специально разработанную для рабочих процессов агентов на основе браузера. Эта модель достигла примерно 70% точности на бенчмарке Online-Mind2Web и была построена вокруг цикла захвата экрана и выполнения действий, где разработчики предоставляли ей захват экрана, получали структурированную команду, выполняли ее и отправляли обновленный вид. Интеграция этой возможности в Flash консолидирует то, что было двухмодельным рабочим процессом, в один. Корпоративное предложение сосредоточено на автоматизации, которая выходит за рамки чат-ботов. Google утверждает, что инструмент позволяет проводить непрерывное тестирование программного обеспечения, где агенты навигируют по приложениям и проверяют функциональность без участия человеческих тестировщиков, проходящих через каждый экран. Работники знаний могут использовать агентов для выполнения многошаговых задач в браузере, заполнения форм, извлечения данных из панелей управления или навигации по внутренним инструментам. Архитектура безопасности — это то, где Google проводит самые четкие границы. Компания утверждает, что применяла целенаправленное противодействующее обучение специально для инъекций подсказок, атаки, при которой вредоносные инструкции, встроенные в веб-страницу или документ, обманывают ИИ-агента, заставляя его выполнять непреднамеренные действия. Угроза не является теоретической, так как исследователи неоднократно демонстрировали, что ИИ-агенты могут быть манипулированы через контент, с которым они сталкиваются во время выполнения задач. Google предлагает две дополнительные корпоративные меры безопасности поверх базовой модели. Первая требует явного подтверждения пользователя перед выполнением агентом любого действия, помеченного как чувствительное или необратимое, например, отправка формы, совершение покупки или удаление данных. Вторая автоматически останавливает агента, если он обнаруживает попытку косвенной инъекции подсказки, останавливая выполнение, а не рискуя скомпрометированным действием. Обе меры безопасности являются опциональными, а не стандартными. Google рекомендует подход "защита в глубину", где разработчики накладывают несколько уровней защиты, а не полагаются на какой-либо один механизм. Документация компании признает, что ни одна отдельная мера безопасности не является достаточной сама по себе, что является откровенным заявлением, контрастирующим с более уверенным маркетинговым языком вокруг других возможностей ИИ. Конкурентная среда значительно изменилась с тех пор, как Anthropic первыми внедрили эту категорию. Claude Computer Use от Anthropic работает на разных операционных системах и может взаимодействовать с файловыми системами, а не только с браузерами, что делает его более универсальным для настольных рабочих процессов. Собственные функции агентного просмотра Chrome от Google уже были добавлены ранее в этом году, включая Auto Browse для автономных многошаговых задач. Новая интеграция Flash расширяет эту философию за пределы Chrome на любой экран, который агент может видеть. OpenAI также вошла в эту область, и три компании теперь конкурируют по различным осям. Вопрос для корпоративных покупателей заключается не в том, какая модель может нажимать кнопку, а в том, какая из них может делать это безопасно в регулируемой среде. Google не опубликовал обновленные оценки бенчмарков для использования компьютера как встроенного инструмента Flash по сравнению с предыдущей отдельной моделью. Компания не раскрыла, сколько предприятий используют эту возможность, или предоставила примеры с названными клиентами. Утверждения о целенаправленном противодействующем обучении для инъекций подсказок описаны в блоге, но не подтверждены опубликованными исследованиями или результатами красной команды. Платформа Агентов Gemini Enterprise, где доступен инструмент, использует модель оплаты по мере использования. Flash является одной из более дешевых моделей в линейке Google, что может сделать использование компьютера более доступным для автоматизации в крупном масштабе, чем запуск его через более тяжелую модель. Будет ли сохраняться ценовое преимущество, зависит от того, сколько действий требует типичный рабочий процесс агента и как часто меры безопасности прерывают выполнение, чтобы запросить подтверждение. Использование компьютера в ИИ все еще на ранней стадии. Модели могут навигировать по знакомым интерфейсам, но испытывают трудности с неожиданными всплывающими окнами, CAPTCHA, динамически загружаемым контентом и макетами, которые они не видели ранее. Решение Google сделать это встроенным инструментом, а не отдельной моделью, сигнализирует о уверенности в том, что эта возможность достаточно зрелая для общего доступа, но меры безопасности с опцией подтверждения сигнализируют о равной осведомленности о том, что она еще не достаточно зрелая для работы без надзора.

Другие статьи

Эти предложения на зарядные устройства в день Prime — это те, которые я бы рекомендовал, прежде чем цены снова поднимутся. День Prime снизил цены на полезные зарядные устройства от Anker, Ugeen и Belkin, включая GaN-зарядные блоки и магнитные зарядные подставки.

Tissium привлекла 60 миллионов евро для бесшовного восстановления нервов Французская компания Tissium привлекла 60 миллионов евро для внедрения COAPTIUM CONNECT, единственной системы восстановления нервов без швов, одобренной FDA, в операционные залы США. Anthropic обвиняет Alibaba в проведении крупнейшей кампании дистилляции против Claude Anthropic сообщила сенаторам США, что лаборатория Qwen компании Alibaba использовала 25 000 фальшивых аккаунтов для проведения почти 29 миллионов обменов с Claude с апреля по июнь.

Qualcomm привлекает Meta в качестве первого названного клиента для своих чипов центра обработки данных Dragonfly Qualcomm представила свой чип для дата-центров Dragonfly C1000 с Meta в качестве первого названного клиента и подтвердила приобретение стартапа в области ИИ Modular за 3,9 миллиарда долларов.

Отметьте в своем календаре, Бэтмен: Капed Крусейдер, Сезон 2 выходит в одном огромном релизе в этом июле. Бэтмен: Крестоносец в плаще. Первый трейлер второго сезона выводит Загадочника на первый план и заканчивается коротким намеком на Джокера.

Генеральный директор Nvidia Дженсен Хуанг говорит, что контрабандные дата-центры — это мертвая точка, и национальная безопасность стоит на первом месте. Дженсен Хуанг сообщил акционерам, что Nvidia будет приоритизировать национальную безопасность США над продажами и назвал контрабандные центры обработки данных с чипами непригодными для использования.

Gemini 3.5 Flash теперь может видеть и контролировать ваш экран, и Google хочет, чтобы предприятия доверяли ему.

Google сделала использование компьютера встроенным инструментом в Gemini 3.5 Flash, заменив автономную модель и добавив корпоративные меры безопасности.