ChatGPT теперь интерпретирует фотографии лучше, чем искусствовед и исследователь, вместе взятые

      Новейшие возможности ChatGPT по созданию изображений изменили наше прежнее представление о средствах массовой информации, генерируемых искусственным интеллектом. Недавно анонсированная модель GPT-4o демонстрирует замечательные возможности интерпретации изображений с высокой точностью и воссоздания их с помощью вирусных эффектов, например, вдохновленных Studio Ghibli. Он даже распознает текст на изображениях, сгенерированных искусственным интеллектом, что ранее было сложно для ИИ. И теперь он запускает две новые модели, способные анализировать изображения в поисках подсказок, чтобы собрать гораздо больше информации, которая может быть недоступна даже человеческому взгляду.

      Ранее на этой неделе OpenAI анонсировала две новые модели, которые значительно улучшают мыслительные способности ChatGPT. Новая модель o3, которую OpenAI называет “самой мощной моделью мышления”, улучшает существующие возможности интерпретации и восприятия, улучшая “кодирование, математику, естественные науки, визуальное восприятие и многое другое”, - утверждает организация. Между тем, o4-mini - это более компактная и быстрая модель для “экономичного мышления” в тех же направлениях. Эта новость последовала за недавним выпуском OpenAI моделей класса GPT-4.1, которые обеспечивают более быструю обработку и более глубокий контекст.

      ChatGPT теперь “мыслит образами”

      Благодаря улучшенным способностям к логическому мышлению обе модели теперь могут использовать изображения в процессе своих рассуждений, что позволяет им “мыслить образами”, - заявляет OpenAI. Благодаря этому изменению обе модели могут интегрировать образы в свою мыслительную цепочку. Помимо базового анализа изображений, модели o3 и o4-mini позволяют более тщательно изучать изображения и даже манипулировать ими с помощью таких действий, как обрезка, масштабирование, переворачивание или увеличение детализации, чтобы извлекать из изображений любые визуальные подсказки, которые потенциально могут улучшить способность ChatGPT предоставлять решения.



      Представляем OpenAI o3 и o4-mini — наши самые умные и производительные модели на сегодняшний день.Впервые наши логические модели могут эффективно использовать и комбинировать все инструменты в ChatGPT, включая веб-поиск, Python, анализ изображений, интерпретацию файлов и генерацию изображений. pic.twitter.com/rDaqV0x0wE — OpenAI (@OpenAI) 16 апреля 2025 г.



      В анонсе говорится, что модели сочетают визуальные и текстовые рассуждения, которые могут быть интегрированы с другими функциями ChatGPT, такими как веб-поиск, анализ данных и генерация кода, и, как ожидается, станут основой для более продвинутых агентов искусственного интеллекта с мультимодальным анализом.

      Помимо других практических применений, вы можете ожидать, что в ChatGPT будут добавлены изображения множества элементов, таких как блок-схемы или каракули от рукописных заметок до изображений объектов реального мира, и ожидать, что ChatGPT будет иметь более глубокое понимание для получения лучшего результата, даже без текстовой подсказки с описанием. Благодаря этому OpenAI становится все ближе к Gemini от Google, который предлагает впечатляющую возможность интерпретировать реальный мир с помощью видео в реальном времени.

      Несмотря на смелые заявления, OpenAI ограничивает доступ только для платных пользователей, предположительно, чтобы предотвратить повторное “таяние” графических процессоров, поскольку компания изо всех сил пытается удовлетворить спрос на новые функции reasoning. На данный момент модели o3, o4-mini и o4-mini-high будут доступны исключительно для пользователей ChatGPT Plus, Pro и членов команды, а пользователи корпоративного уровня и образовательного уровня получат их через неделю. Между тем, пользователи бесплатных приложений смогут получить ограниченный доступ к o4-mini, нажав кнопку “Подумать” на панели подсказок.

Другие статьи

Потерянные записи: Обзор Bloom and Rage: панк-рок никогда не умрет Lost Records: Bloom and Rage переосмысливают формулу Life is Strange, чтобы создать глубоко трогательную историю о совершеннолетии в 90-х.

Paebbl открывает "первую в мире" демонстрационную установку, которая превращает CO2 в пыль Paebbl, стартап, превращающий CO2 в пыль, открыл свой первый демонстрационный завод в Роттердаме, Нидерланды.

Copilot Vision AI от Microsoft теперь доступен бесплатно, но только для этих 9 сайтов Искусственный интеллект Microsoft Copilot теперь может наблюдать за вашим экраном во время просмотра, чтобы вы могли задавать ему вопросы о том, что вы делаете.

Mercury: это финансовая система вашего стартапа, которая лучше, чем банк Спросите любого основателя, и он скажет вам: банковское дело - это всего лишь внешняя сторона финансирования стартапов. Поддержание денежного потока, привлечение капитала, когда это необходимо, и не погружение в рутинную работу в бэк-офисе - вот результаты, которые вам нужны. Mercury добивается этого. На самом деле, он был создан для этого. Это не просто еще один SaaS-продукт с элегантным интерфейсом [...]

Великобритания выпускает микроволновое оружие, поражающее беспилотники, на фоне развития оборонных технологий Британская армия нейтрализовала рои беспилотников с помощью “RapidDestroyer” — нового оборонного оружия, использующего высокочастотные микроволны.

Galaxy S25 не выглядит так, как хотелось бы Samsung Данные показывают, что Samsung лишь незначительно опережает Apple по доле рынка, хотя стратегии, возможно, сработали не так, как ожидалось.