ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados

ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados

      Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión previa de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra habilidades notables para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli. Incluso domina el texto en imágenes generadas por IA, lo que anteriormente había sido difícil para la IA. Y ahora, está lanzando dos nuevos modelos capaces de diseccionar imágenes para obtener señales y recopilar mucha más información que incluso podría fallar a una mirada humana.

      OpenAI anunció dos nuevos modelos a principios de esta semana que llevan las habilidades de pensamiento de ChatGPT a un nivel superior. Su nuevo modelo o3, que OpenAI llama su "modelo de razonamiento más poderoso" mejora las habilidades de interpretación y percepción existentes, mejorando en "codificación, matemáticas, ciencias, percepción visual y más", afirma la organización. Mientras tanto, el o4-mini es un modelo más pequeño y rápido para un "razonamiento rentable" en las mismas vías. La noticia sigue al reciente lanzamiento de OpenAI de la clase de modelos GPT-4.1, que brinda un procesamiento más rápido y un contexto más profundo.

      ChatGPT ahora está "pensando con imágenes"

      Con mejoras en sus habilidades para razonar, ambos modelos ahora pueden incorporar imágenes en su proceso de razonamiento, lo que los hace capaces de "pensar con imágenes", proclama OpenAI. Con este cambio, ambos modelos pueden integrar imágenes en su cadena de pensamiento. Yendo más allá del análisis básico de imágenes, los modelos o3 y o4-mini pueden investigar las imágenes más de cerca e incluso manipularlas mediante acciones como recortar, hacer zoom, voltear o enriquecer detalles para obtener señales visuales de las imágenes que podrían mejorar potencialmente la capacidad de ChatGPT para proporcionar soluciones.

      

      Presentamos OpenAI o3 y o4-mini, nuestros modelos más inteligentes y capaces hasta la fecha.Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de manera estratégica todas las herramientas dentro de ChatGPT, incluida la búsqueda web, Python, análisis de imágenes, interpretación de archivos y generación de imágenes. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 de abril de 2025

      

      Con el anuncio, se dice que los modelos combinan el razonamiento visual y textual, que se puede integrar con otras funciones de ChatGPT, como búsqueda web, análisis de datos y generación de código, y se espera que se conviertan en la base de agentes de IA más avanzados con análisis multimodal.

      Entre otras aplicaciones prácticas, puede esperar incluir imágenes de una multitud de elementos, como diagramas de flujo o garabatos de notas escritas a mano a imágenes de objetos del mundo real, y esperar que ChatGPT tenga una comprensión más profunda para una mejor salida, incluso sin un mensaje de texto descriptivo. Con esto, OpenAI se acerca cada vez más a Gemini de Google, que ofrece la impresionante capacidad de interpretar el mundo real a través de videos en vivo.

      A pesar de las afirmaciones audaces, OpenAI está limitando el acceso solo a los miembros pagos, presumiblemente para evitar que sus GPU se "derritan" nuevamente, ya que lucha por mantener la demanda informática de nuevas funciones de razonamiento. A partir de ahora, los modelos o3, o4-mini y o4-mini-high estarán disponibles exclusivamente para los miembros de ChatGPT Plus, Pro y Team, mientras que los usuarios de nivel Enterprise y Education lo obtendrán en una semana. Mientras tanto, los usuarios gratuitos podrán acceder de forma limitada a o4-mini cuando seleccionen el botón" Pensar " en la barra de indicaciones.

Otros artículos

Mercury: mejor que un banco, es el sistema operativo financiero de su startup Mercury: mejor que un banco, es el sistema operativo financiero de su startup Pregúntele a cualquier fundador y le dirán: la banca es simplemente la superficie de las finanzas iniciales. Mantener el flujo de efectivo, recaudar capital cuando sea necesario y no quedar enterrado en la rutina administrativa son los resultados que necesita. Mercury lo entiende. De hecho, fue construido para esto. En lugar de ser solo otro producto SaaS con una experiencia de usuario elegante []] Lost Records: Reseña de Bloom and Rage: el punk rock nunca muere Lost Records: Reseña de Bloom and Rage: el punk rock nunca muere Lost Records: Bloom and Rage reinventa la fórmula de Life is Strange para crear una historia profundamente conmovedora de la mayoría de edad de los 90. Cómo los aranceles de Trump podrían remodelar el futuro de las empresas tecnológicas chinas Cómo los aranceles de Trump podrían remodelar el futuro de las empresas tecnológicas chinas El lunes, Ene. El 20 de diciembre, el presidente Donald Trump prestó juramento para su segundo mandato en el Capitolio de los Estados Unidos. Entre los dignatarios extranjeros que asistieron a la inauguración Reino Unido desata un arma de microondas que dispara drones en medio de un impulso tecnológico de defensa Reino Unido desata un arma de microondas que dispara drones en medio de un impulso tecnológico de defensa El Ejército británico ha neutralizado enjambres de drones con el "Destructor rápido", una nueva arma tecnológica de defensa que utiliza microondas de alta frecuencia. ¿Podría este exoplaneta estar 'lleno de vida'? Indicios de vida fuera del sistema solar ¿Podría este exoplaneta estar 'lleno de vida'? Indicios de vida fuera del sistema solar Un hallazgo intrigante indica la posibilidad de vida fuera de nuestro sistema solar. La función más interesante de Gemini ahora es gratuita para todos los usuarios de Android La función más interesante de Gemini ahora es gratuita para todos los usuarios de Android La función killer Gemini para compartir pantalla y cámara estará disponible para todos los usuarios de Android, anunció Google.

ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados

Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión previa de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra habilidades notables para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli. Incluso domina el texto en imágenes generadas por IA, lo que anteriormente había sido difícil para la IA. Y []]