Новая модель изображений OpenAI размышляет, прежде чем рисовать

      Новая модель рассуждает о композиции, ищет контекст в интернете, генерирует до восьми согласованных изображений из одного запроса и отображает текст на нелатинских алфавитах с почти безупречной точностью. Она также заняла первое место в таблице лидеров Image Arena всего через 12 часов после запуска, с самым большим отрывом, когда-либо зафиксированным.

      Два года назад, попросить ChatGPT сгенерировать визуализацию было все равно что заказать постер у недосыпающего стажера с клеем и травмой головы. Вы бы просили чистый дизайн и получали "творчество из остатков", разбросанное по изображению, плюс три новых слова, которые выглядели так, будто были придуманы во время незначительного сбоя программного обеспечения.

      Изображения выглядели как сгенерированные ИИ в том смысле, что стало культурным сокращением для странного: почти правильно, заметно неправильно и мгновенно узнаваемо как синтетическое.

      Этот скачок имеет значение. Отображение текста было постоянной, смущающей слабостью генераторов изображений ИИ с тех пор, как DALL-E впервые привлек внимание в январе 2021 года, модель, о которой мы тогда писали как о захватывающей любопытности.

      Images 2.0 утверждает, что достигает примерно 99% точности в отображении текста на любом языке и алфавите, включая японский, корейский, китайский, хинди и бенгали. Если эта цифра подтвердится в независимом тестировании, она сократит разрыв между "впечатляющей демонстрацией ИИ" и "инструментом, который графический дизайнер действительно использовал бы для производственной работы".

      Архитектурное изменение, которое делает модель отличной, хотя и не просто лучше, - это то, что OpenAI называет "способностями к рассуждению". Images 2.0 - первая модель изображения компании, которая интегрирует архитектуру рассуждений O-серии.

      Перед тем как сгенерировать пиксель, модель исследует запрос, планирует композицию, рассуждает о пространственных отношениях между элементами и может искать в интернете контекст в реальном времени.

      Это, по словам OpenAI, не инструмент для рендеринга, а "визуальный партнер по мышлению".

      Это мой кот, преобразованный в комикс с помощью ChatGPT.

      На практике это проявляется в двух режимах доступа. Режим мгновенного доступа доступен всем пользователям ChatGPT, включая бесплатные аккаунты, и предоставляет основные улучшения качества: лучший текст, более четкое редактирование, более богатые макеты.

      Режим мышления, который позволяет выполнять поиск в интернете, пакетную обработку изображений и проверку выходных данных, ограничен подписчиками Plus (20 долларов в месяц), Pro (200 долларов в месяц), Business и Enterprise.

      Это различие имеет коммерческое значение. Способности к рассуждению, где находится большая часть качественного преимущества, находятся за платным доступом. Бесплатные пользователи получают лучшие изображения; платящие пользователи получают изображения, о которых модель подумала.

      Многократная возможность является функцией, которая, скорее всего, изменит профессиональные рабочие процессы. Один запрос теперь может производить до восьми изображений, которые сохраняют непрерывность персонажей и объектов в наборе.

      Это означает, что дизайнер может создать семью активов для социальных сетей, последовательность для детской книги или серию кадров раскадровки из одной инструкции с последовательной визуальной идентичностью на протяжении всего процесса.

      Ранее каждое изображение нужно было запрашивать индивидуально и вручную соединять. Для маркетинговых команд и создателей контента это означает значительное сокращение производственных трений.

      Интеграция в Codex, среду программирования OpenAI, является стратегически важным шагом. Разработчики и дизайнеры теперь могут генерировать макеты пользовательского интерфейса, прототипы и визуальные активы в одном и том же агентском рабочем пространстве, которое они используют для кода, слайдов и автоматизации браузера, используя одну подписку ChatGPT.

      Модель изображения больше не является отдельным продуктом; это возможность, встроенная в более широкую платформу OpenAI, конкурирующая не только с Midjourney и Google’s Nano Banana 2 по качеству, но и с Canva и Figma по интеграции рабочих процессов.

      Показатели производительности впечатляют. В течение 12 часов после запуска Images 2.0 заняла первое место в таблице лидеров Image Arena во всех категориях с результатом 1512, отрывом в 242 очка от модели, занявшей второе место, Google’s Nano Banana 2. Это самый большой отрыв, когда-либо зафиксированный в таблице лидеров.

      На протяжении большей части 2026 года OpenAI и Google обменивались первыми позициями в пределах узкого диапазона; Images 2.0 уверенно вырвалась вперед.

      DALL-E 2 и DALL-E 3 будут выведены из эксплуатации и сняты с обслуживания 12 мая 2026 года. GPT-Image-1.5, выпущенный в декабре 2025 года как промежуточное обновление, остается доступным через API для устаревших интеграций, но больше не является моделью по умолчанию.

      OpenAI не раскрыла архитектуру Images 2.0, описывая ее только как "универсальную модель" или "GPT для изображений" и отказываясь уточнять, использует ли она диффузионный, авторегрессионный или гибридный подход. Идентификатор модели API - gpt-image-2; ожидается, что API будет открыт для разработчиков в начале мая 2026 года.

      Цены на основе токенов составляют 8 долларов за миллион токенов для ввода изображений, 2 доллара за кэшированный ввод и 30 долларов за вывод изображений, при этом стоимость за изображение обычно колеблется от 0,04 до 0,35 доллара в зависимости от сложности запроса и разрешения. Разрешение вывода достигает до 2K.

      Срок окончания знаний - декабрь 2025 года, что вводит практическую границу: модель не может точно отображать события, людей или продукты, которые появились после этой даты, не дополняя свои внутренние знания живым поиском в интернете.

      Архитектура безопасности модели включает фильтрацию контента, метаданные C2PA для происхождения и то, что OpenAI описала на пресс-брифинге как постоянный мониторинг, на чем компания была особенно настойчива, учитывая растущее регуляторное внимание к синтетическим медиа и использованию генераторов изображений ИИ в дипфейках, мошенничестве и несанкционированных изображениях.

      Самый важный вопрос, который поднимает Images 2.0, не касается качества. Технический разрыв между изображениями, сгенерированными ИИ, и созданными человеком, сужается на протяжении многих лет; эта модель еще больше его сужает.

      Вопрос заключается в том, что произойдет, когда инструмент перестанет быть новинкой, а станет инфраструктурой, когда генерация изображений станет стандартной возможностью каждой среды программирования, каждого интерфейса чата и каждого пакета производительности для бизнеса, и когда различие между "разработано человеком" и "сгенерировано по запросу" станет чем-то, что может подтвердить только метаданные.

      OpenAI, со своей стороны, похоже, ставит на то, что ответ - это масштаб: больше изображений, быстрее, лучше, дешевле, повсюду. Когда мы впервые освещали DALL-E пять лет назад, результаты модели были захватывающими странностями. Теперь они стали производственными активами.

      Эра, когда изображения, сгенерированные ИИ, были очевидно сгенерированы ИИ, закончилась. Что будет дальше, зависит от того, смогут ли защитные механизмы идти в ногу с возможностями.

Другие статьи

GIGABYTE рассматривает 18-дюймовый экран как новый стандарт для тонких и мобильных устройств. Компания анонсировала ноутбук GAMING A18 PRO, который стремится объединить размер экрана и компактную толщину корпуса. Внутри него находятся современные процессоры, ИИ-помощник и несколько оригинальных решений для системы охлаждения.

Google Meet вскоре будет делать заметки за вас, даже если это встреча лицом к лицу. Запишите для меня, что личное присутствие сигнализирует о том, что Google не хочет, чтобы Gemini жил внутри одного приложения; он хочет, чтобы это был слой ИИ в каждом вашем разговоре, где бы он ни происходил.

Утечка информации от Apple утверждает, что в iPhone 18 Pro будут сочные обновления камеры, которые я не могу дождаться, чтобы увидеть в действии. Уважаемый утечка из Weibo описал четыре обновления камеры, которые, как сообщается, разрабатывает Apple, переменная диафрагма подтверждена как для iPhone 18 Pro, так и для Pro Max в этом году.

Автономные автомобили должны были освободить нас от транспортного ада. Исследования говорят об обратном. Исследования показывают, что автономные автомобили могут значительно ухудшить ситуацию с движением, а не улучшить, и доказательства на улицах уже начинают это подтверждать.

GIGABYTE рассматривает 18-дюймовый экран как новый стандарт тонкости и мобильности. Компания анонсировала ноутбук GAMING A18 PRO, который стремится объединить размер экрана и невысокую толщину корпуса. Внутри размещены современные процессоры, ИИ-помощник и несколько интересных решений для системы охлаждения.

Новая модель изображений OpenAI размышляет, прежде чем рисовать

Изображения ChatGPT 2.0 от OpenAI — это первая модель изображений с рассуждением: она планирует композиции, ищет в интернете, отображает текст на любом письме.