ChatGPT ahora interpreta las fotos mejor que un crítico de arte y un investigador combinados

      Las recientes capacidades de generación de imágenes de ChatGPT han desafiado nuestra comprensión previa de los medios generados por IA. El modelo GPT-4o recientemente anunciado demuestra habilidades notables para interpretar imágenes con gran precisión y recrearlas con efectos virales, como el inspirado en Studio Ghibli. Incluso domina el texto en imágenes generadas por IA, lo que anteriormente había sido difícil para la IA. Y ahora, está lanzando dos nuevos modelos capaces de diseccionar imágenes para obtener señales y recopilar mucha más información que incluso podría fallar a una mirada humana.

      OpenAI anunció dos nuevos modelos a principios de esta semana que llevan las habilidades de pensamiento de ChatGPT a un nivel superior. Su nuevo modelo o3, que OpenAI llama su "modelo de razonamiento más poderoso" mejora las habilidades de interpretación y percepción existentes, mejorando en "codificación, matemáticas, ciencias, percepción visual y más", afirma la organización. Mientras tanto, el o4-mini es un modelo más pequeño y rápido para un "razonamiento rentable" en las mismas vías. La noticia sigue al reciente lanzamiento de OpenAI de la clase de modelos GPT-4.1, que brinda un procesamiento más rápido y un contexto más profundo.

      ChatGPT ahora está "pensando con imágenes"

      Con mejoras en sus habilidades para razonar, ambos modelos ahora pueden incorporar imágenes en su proceso de razonamiento, lo que los hace capaces de "pensar con imágenes", proclama OpenAI. Con este cambio, ambos modelos pueden integrar imágenes en su cadena de pensamiento. Yendo más allá del análisis básico de imágenes, los modelos o3 y o4-mini pueden investigar las imágenes más de cerca e incluso manipularlas mediante acciones como recortar, hacer zoom, voltear o enriquecer detalles para obtener señales visuales de las imágenes que podrían mejorar potencialmente la capacidad de ChatGPT para proporcionar soluciones.



      Presentamos OpenAI o3 y o4-mini, nuestros modelos más inteligentes y capaces hasta la fecha.Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de manera estratégica todas las herramientas dentro de ChatGPT, incluida la búsqueda web, Python, análisis de imágenes, interpretación de archivos y generación de imágenes. pic.twitter.com/rDaqV0x0wE-OpenAI (@OpenAI) 16 de abril de 2025



      Con el anuncio, se dice que los modelos combinan el razonamiento visual y textual, que se puede integrar con otras funciones de ChatGPT, como búsqueda web, análisis de datos y generación de código, y se espera que se conviertan en la base de agentes de IA más avanzados con análisis multimodal.

      Entre otras aplicaciones prácticas, puede esperar incluir imágenes de una multitud de elementos, como diagramas de flujo o garabatos de notas escritas a mano a imágenes de objetos del mundo real, y esperar que ChatGPT tenga una comprensión más profunda para una mejor salida, incluso sin un mensaje de texto descriptivo. Con esto, OpenAI se acerca cada vez más a Gemini de Google, que ofrece la impresionante capacidad de interpretar el mundo real a través de videos en vivo.

      A pesar de las afirmaciones audaces, OpenAI está limitando el acceso solo a los miembros pagos, presumiblemente para evitar que sus GPU se "derritan" nuevamente, ya que lucha por mantener la demanda informática de nuevas funciones de razonamiento. A partir de ahora, los modelos o3, o4-mini y o4-mini-high estarán disponibles exclusivamente para los miembros de ChatGPT Plus, Pro y Team, mientras que los usuarios de nivel Enterprise y Education lo obtendrán en una semana. Mientras tanto, los usuarios gratuitos podrán acceder de forma limitada a o4-mini cuando seleccionen el botón" Pensar " en la barra de indicaciones.

Otros artículos

Mercury: mejor que un banco, es el sistema operativo financiero de su startup Pregúntele a cualquier fundador y le dirán: la banca es simplemente la superficie de las finanzas iniciales. Mantener el flujo de efectivo, recaudar capital cuando sea necesario y no quedar enterrado en la rutina administrativa son los resultados que necesita. Mercury lo entiende. De hecho, fue construido para esto. En lugar de ser solo otro producto SaaS con una experiencia de usuario elegante []]

Paebbl abre la' primera planta de demostración ' del mundo que convierte el CO2 en polvo Paebbl, la startup que convierte el CO2 en polvo, ha abierto su primera planta de demostración en Rotterdam, Países Bajos.

Cómo los aranceles de Trump podrían remodelar el futuro de las empresas tecnológicas chinas El lunes, Ene. El 20 de diciembre, el presidente Donald Trump prestó juramento para su segundo mandato en el Capitolio de los Estados Unidos. Entre los dignatarios extranjeros que asistieron a la inauguración

Copilot Vision AI de Microsoft ahora es de uso gratuito, pero solo para estos 9 sitios Copilot AI de Microsoft ahora puede ver su pantalla mientras navega para que pueda hacerle preguntas sobre lo que está haciendo.

El nuevo renderizado del iPhone 17 Pro nos mantiene adivinando sobre el diseño final Ha aparecido un nuevo render del iPhone 17 Pro, apoyando la idea de que no tendrá una parte trasera de dos tonos.

Crucigrama del NYT: respuestas para el jueves 17 de abril ¡El crucigrama del New York Times puede ser difícil, incluso si no es el número del domingo! Si estás atascado, estamos aquí para ayudarte con las pistas y respuestas de hoy.