
ChatGPT теперь интерпретирует фотографии лучше, чем искусствовед и исследователь, вместе взятые
Новейшие возможности ChatGPT по созданию изображений изменили наше прежнее представление о средствах массовой информации, генерируемых искусственным интеллектом. Недавно анонсированная модель GPT-4o демонстрирует замечательные возможности интерпретации изображений с высокой точностью и воссоздания их с помощью вирусных эффектов, например, вдохновленных Studio Ghibli. Он даже распознает текст на изображениях, сгенерированных искусственным интеллектом, что ранее было сложно для ИИ. И теперь он запускает две новые модели, способные анализировать изображения в поисках подсказок, чтобы собрать гораздо больше информации, которая может быть недоступна даже человеческому взгляду.
Ранее на этой неделе OpenAI анонсировала две новые модели, которые значительно улучшают мыслительные способности ChatGPT. Новая модель o3, которую OpenAI называет “самой мощной моделью мышления”, улучшает существующие возможности интерпретации и восприятия, улучшая “кодирование, математику, естественные науки, визуальное восприятие и многое другое”, - утверждает организация. Между тем, o4-mini - это более компактная и быстрая модель для “экономичного мышления” в тех же направлениях. Эта новость последовала за недавним выпуском OpenAI моделей класса GPT-4.1, которые обеспечивают более быструю обработку и более глубокий контекст.
ChatGPT теперь “мыслит образами”
Благодаря улучшенным способностям к логическому мышлению обе модели теперь могут использовать изображения в процессе своих рассуждений, что позволяет им “мыслить образами”, - заявляет OpenAI. Благодаря этому изменению обе модели могут интегрировать образы в свою мыслительную цепочку. Помимо базового анализа изображений, модели o3 и o4-mini позволяют более тщательно изучать изображения и даже манипулировать ими с помощью таких действий, как обрезка, масштабирование, переворачивание или увеличение детализации, чтобы извлекать из изображений любые визуальные подсказки, которые потенциально могут улучшить способность ChatGPT предоставлять решения.
Представляем OpenAI o3 и o4-mini — наши самые умные и производительные модели на сегодняшний день.Впервые наши логические модели могут эффективно использовать и комбинировать все инструменты в ChatGPT, включая веб-поиск, Python, анализ изображений, интерпретацию файлов и генерацию изображений. pic.twitter.com/rDaqV0x0wE — OpenAI (@OpenAI) 16 апреля 2025 г.
В анонсе говорится, что модели сочетают визуальные и текстовые рассуждения, которые могут быть интегрированы с другими функциями ChatGPT, такими как веб-поиск, анализ данных и генерация кода, и, как ожидается, станут основой для более продвинутых агентов искусственного интеллекта с мультимодальным анализом.
Помимо других практических применений, вы можете ожидать, что в ChatGPT будут добавлены изображения множества элементов, таких как блок-схемы или каракули от рукописных заметок до изображений объектов реального мира, и ожидать, что ChatGPT будет иметь более глубокое понимание для получения лучшего результата, даже без текстовой подсказки с описанием. Благодаря этому OpenAI становится все ближе к Gemini от Google, который предлагает впечатляющую возможность интерпретировать реальный мир с помощью видео в реальном времени.
Несмотря на смелые заявления, OpenAI ограничивает доступ только для платных пользователей, предположительно, чтобы предотвратить повторное “таяние” графических процессоров, поскольку компания изо всех сил пытается удовлетворить спрос на новые функции reasoning. На данный момент модели o3, o4-mini и o4-mini-high будут доступны исключительно для пользователей ChatGPT Plus, Pro и членов команды, а пользователи корпоративного уровня и образовательного уровня получат их через неделю. Между тем, пользователи бесплатных приложений смогут получить ограниченный доступ к o4-mini, нажав кнопку “Подумать” на панели подсказок.
Другие статьи






ChatGPT теперь интерпретирует фотографии лучше, чем искусствовед и исследователь, вместе взятые
Новейшие возможности ChatGPT по созданию изображений изменили наше прежнее представление о средствах массовой информации, генерируемых искусственным интеллектом. Недавно анонсированная модель GPT-4o демонстрирует замечательные возможности интерпретации изображений с высокой точностью и воссоздания их с помощью вирусных эффектов, например, вдохновленных Studio Ghibli. Он даже справляется с текстом на изображениях, сгенерированных искусственным интеллектом, что ранее было сложно для ИИ. И [...]