El nuevo modelo de imagen de OpenAI razona antes de dibujar.

      El nuevo modelo razona sobre la composición, busca en la web contexto, genera hasta ocho imágenes coherentes a partir de un solo aviso y renderiza texto en escrituras no latinas con una precisión casi perfecta. También ocupó el primer lugar en la tabla de clasificación de Image Arena dentro de las 12 horas posteriores al lanzamiento, con el mayor margen jamás registrado.

      Hace dos años, pedirle a ChatGPT que generara una visual era como encargar un cartel a un pasante privado de sueño con un pegamento y una lesión en la cabeza. Pedías un diseño limpio y obtenías "creatividad de sobras" salpicada por la imagen, además de tres nuevas palabras que parecían haber sido inventadas durante un pequeño mal funcionamiento del software.

      Las imágenes parecían generadas por IA de la manera que se ha convertido en una abreviatura cultural para lo inquietante: casi correcto, conspicuamente incorrecto e instantáneamente reconocible como sintético.

      El salto es importante. La renderización de texto ha sido la debilidad persistente y embarazosa de los generadores de imágenes de IA desde que DALL-E llamó la atención en enero de 2021, un modelo que cubrimos en ese momento como una curiosidad fascinante.

      Images 2.0 afirma tener aproximadamente un 99% de precisión en la renderización de texto en cualquier idioma y escritura, incluyendo japonés, coreano, chino, hindi y bengalí. Si esa cifra se mantiene en pruebas independientes, cierra la brecha entre "demostración de IA impresionante" y "herramienta que un diseñador gráfico realmente usaría para trabajo de producción".

      El cambio arquitectónico que hace que el modelo sea diferente, aunque no solo mejor, es lo que OpenAI llama "capacidades de razonamiento". Images 2.0 es el primer modelo de imagen de la compañía en integrar su arquitectura de razonamiento O-series.

      Antes de generar un píxel, el modelo investiga el aviso, planifica la composición, razona sobre las relaciones espaciales entre elementos y puede buscar en la web contexto en tiempo real.

      Es, en el marco de OpenAI, no una herramienta de renderizado, sino un "socio de pensamiento visual".

      Este es mi gato transformado en una tira cómica con ChatGPT.

      En la práctica, esto se manifiesta en dos modos de acceso. El modo instantáneo se envía a todos los usuarios de ChatGPT, incluidos los cuentas de nivel gratuito, y ofrece las mejoras de calidad básicas: mejor texto, edición más nítida, diseños más ricos.

      El modo de pensamiento, que habilita la búsqueda en la web, el procesamiento por lotes de múltiples imágenes y la verificación de salida, está restringido a suscriptores Plus ($20/mes), Pro ($200/mes), Business y Enterprise.

      La distinción es comercialmente significativa. Las capacidades de razonamiento, donde reside la mayor parte de la prima de calidad, están detrás del muro de pago. Los usuarios gratuitos obtienen mejores imágenes; los usuarios de pago obtienen imágenes en las que el modelo ha pensado.

      La capacidad de múltiples imágenes es la característica más probable que cambie los flujos de trabajo profesionales. Un solo aviso puede ahora producir hasta ocho imágenes que mantienen la continuidad de personajes y objetos a través del conjunto.

      Eso significa que un diseñador puede generar una familia de activos para redes sociales, una secuencia de un libro infantil o una serie de fotogramas de storyboard a partir de una sola instrucción, con una identidad visual consistente en todo momento.

      Anteriormente, cada imagen tenía que ser solicitada individualmente y unida manualmente. Para los equipos de marketing y creadores de contenido, eso representa una reducción significativa en la fricción de producción.

      La integración en Codex, el entorno de codificación de OpenAI, es el movimiento estratégicamente cargado. Los desarrolladores y diseñadores ahora pueden generar maquetas de UI, prototipos y activos visuales dentro del mismo espacio de trabajo agentivo que utilizan para código, diapositivas y automatización de navegadores, utilizando una sola suscripción de ChatGPT.

      El modelo de imagen ya no es un producto independiente; es una capacidad integrada en la plataforma más amplia de OpenAI, compitiendo no solo con Midjourney y Google’s Nano Banana 2 en calidad, sino también con Canva y Figma en integración de flujos de trabajo.

      El rendimiento de referencia es sorprendente. Dentro de las 12 horas posteriores al lanzamiento, Images 2.0 ocupó el primer lugar en la tabla de clasificación de Image Arena en todas las categorías, con una puntuación de 1,512, una ventaja de +242 puntos sobre el modelo en segundo lugar, Google’s Nano Banana 2. Ese es el mayor margen jamás registrado en la tabla de clasificación.

      Durante la mayor parte de 2026, OpenAI y Google habían estado intercambiando la posición superior dentro de un margen ajustado; Images 2.0 se separó de manera decisiva.

      DALL-E 2 y DALL-E 3 están siendo descontinuados y retirados el 12 de mayo de 2026. GPT-Image-1.5, lanzado en diciembre de 2025 como una actualización intermedia, sigue siendo accesible a través de la API para integraciones heredadas, pero ya no es el modelo predeterminado.

      OpenAI no divulgó la arquitectura de Images 2.0, describiéndola solo como un "modelo generalista" o "GPT para imágenes" y declinando especificar si utiliza un enfoque de difusión, autorregresivo o híbrido. El identificador del modelo de API es gpt-image-2; se espera que la API se abra a los desarrolladores a principios de mayo de 2026.

      La fijación de precios basada en tokens es de $8 por millón de tokens para entrada de imagen, $2 para entrada en caché y $30 para salida de imagen, con costos por imagen que generalmente oscilan entre $0.04 y $0.35 dependiendo de la complejidad del aviso y la resolución. La resolución de salida alcanza hasta 2K.

      El límite de conocimiento es diciembre de 2025, lo que introduce un límite práctico: el modelo no puede renderizar con precisión eventos, personas o productos que surgieron después de esa fecha sin complementar su conocimiento interno con búsqueda en la web en tiempo real.

      La arquitectura de seguridad del modelo incluye filtrado de contenido, metadatos C2PA para la procedencia y lo que OpenAI describió en la rueda de prensa como monitoreo continuo, un punto sobre el que la compañía fue notablemente enfática, dada la creciente supervisión regulatoria de los medios sintéticos y el uso de generadores de imágenes de IA en deepfakes, estafas e imágenes no consensuadas.

      La pregunta más trascendental que plantea Images 2.0 no es sobre la calidad. La brecha técnica entre las imágenes generadas por IA y las creadas por humanos se ha estado reduciendo durante años; este modelo la reduce aún más.

      La pregunta es qué sucede cuando la herramienta ya no es una novedad, sino infraestructura, cuando la generación de imágenes es una capacidad predeterminada de cada entorno de codificación, cada interfaz de chat y cada suite de productividad empresarial, y cuando la distinción entre "diseñado por una persona" y "generado por un aviso" se convierte en algo que solo los metadatos pueden verificar.

      OpenAI, por su parte, parece estar apostando a que la respuesta es escala: más imágenes, más rápido, mejor, más barato, en todas partes. Cuando cubrimos DALL-E por primera vez hace cinco años, las salidas del modelo eran curiosidades fascinantes. Ahora son activos de producción.

      La era en la que las imágenes generadas por IA eran obviamente generadas por IA ha terminado. Lo que viene a continuación depende de si las barandillas pueden mantenerse al día con la capacidad.

Otros artículos

Google Meet pronto tomará notas por ti, incluso si es una reunión en persona. Tomar notas para mí en persona señala que Google no quiere que Gemini viva dentro de una sola aplicación; quiere que sea la capa de IA en cada conversación que tengas, en cualquier lugar.

La filtración de Apple afirma jugosas mejoras en la cámara del iPhone 18 Pro que no puedo esperar a ver en acción. Un filtrador de Weibo de renombre ha delineado cuatro mejoras en la cámara que Apple supuestamente está desarrollando, con apertura variable confirmada para el iPhone 18 Pro y Pro Max este año.

GIGABYTE considera que la pantalla de 18'' es el nuevo estándar delgado y móvil. La compañía presentó la laptop GAMING A18 PRO, que intenta combinar el tamaño de la pantalla y un grosor modesto del cuerpo. En su interior, cuenta con chips modernos, un asistente de IA y un par de soluciones interesantes para la refrigeración.

GIGABYTE considera que la pantalla de 18'' es el nuevo estándar delgado y móvil. La compañía presentó la laptop GAMING A18 PRO, que intenta combinar el tamaño de la pantalla y un grosor delgado del cuerpo. En su interior, cuenta con chips modernos, un asistente de IA y un par de soluciones interesantes para la refrigeración.

Se suponía que los coches autónomos nos liberarían del infierno del tráfico. La investigación dice lo contrario. La investigación sugiere que los coches autónomos podrían empeorar significativamente el tráfico, en lugar de mejorarlo, y la evidencia en las calles ya está comenzando a respaldar eso.

El nuevo modelo de imagen de OpenAI razona antes de dibujar.

Las imágenes 2.0 de ChatGPT de OpenAI son su primer modelo de imagen con razonamiento: planifica composiciones, busca en la web, renderiza texto en cualquier escritura.