
ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados
Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión previa de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra habilidades notables para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli. Incluso domina el texto en imágenes generadas por IA, lo que anteriormente había sido difícil para la IA. Y ahora, está lanzando dos nuevos modelos capaces de diseccionar imágenes para obtener señales y recopilar mucha más información que incluso podría fallar a una mirada humana.
OpenAI anunció dos nuevos modelos a principios de esta semana que llevan las habilidades de pensamiento de ChatGPT a un nivel superior. Su nuevo modelo o3, que OpenAI llama su "modelo de razonamiento más poderoso" mejora las habilidades de interpretación y percepción existentes, mejorando en "codificación, matemáticas, ciencias, percepción visual y más", afirma la organización. Mientras tanto, el o4-mini es un modelo más pequeño y rápido para un "razonamiento rentable" en las mismas vías. La noticia sigue al reciente lanzamiento de OpenAI de la clase de modelos GPT-4.1, que brinda un procesamiento más rápido y un contexto más profundo.
ChatGPT ahora está "pensando con imágenes"
Con mejoras en sus habilidades para razonar, ambos modelos ahora pueden incorporar imágenes en su proceso de razonamiento, lo que los hace capaces de "pensar con imágenes", proclama OpenAI. Con este cambio, ambos modelos pueden integrar imágenes en su cadena de pensamiento. Yendo más allá del análisis básico de imágenes, los modelos o3 y o4-mini pueden investigar las imágenes más de cerca e incluso manipularlas mediante acciones como recortar, hacer zoom, voltear o enriquecer detalles para obtener señales visuales de las imágenes que podrían mejorar potencialmente la capacidad de ChatGPT para proporcionar soluciones.
Presentamos OpenAI o3 y o4-mini, nuestros modelos más inteligentes y capaces hasta la fecha.Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de manera estratégica todas las herramientas dentro de ChatGPT, incluida la búsqueda web, Python, análisis de imágenes, interpretación de archivos y generación de imágenes. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 de abril de 2025
Con el anuncio, se dice que los modelos combinan el razonamiento visual y textual, que se puede integrar con otras funciones de ChatGPT, como búsqueda web, análisis de datos y generación de código, y se espera que se conviertan en la base de agentes de IA más avanzados con análisis multimodal.
Entre otras aplicaciones prácticas, puede esperar incluir imágenes de una multitud de elementos, como diagramas de flujo o garabatos de notas escritas a mano a imágenes de objetos del mundo real, y esperar que ChatGPT tenga una comprensión más profunda para una mejor salida, incluso sin un mensaje de texto descriptivo. Con esto, OpenAI se acerca cada vez más a Gemini de Google, que ofrece la impresionante capacidad de interpretar el mundo real a través de videos en vivo.
A pesar de las afirmaciones audaces, OpenAI está limitando el acceso solo a los miembros pagos, presumiblemente para evitar que sus GPU se "derritan" nuevamente, ya que lucha por mantener la demanda informática de nuevas funciones de razonamiento. A partir de ahora, los modelos o3, o4-mini y o4-mini-high estarán disponibles exclusivamente para los miembros de ChatGPT Plus, Pro y Team, mientras que los usuarios de nivel Enterprise y Education lo obtendrán en una semana. Mientras tanto, los usuarios gratuitos podrán acceder de forma limitada a o4-mini cuando seleccionen el botón" Pensar " en la barra de indicaciones.
Otros artículos






ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados
Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión previa de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra habilidades notables para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli. Incluso domina el texto en imágenes generadas por IA, lo que anteriormente había sido difícil para la IA. Y []]