El MAI-Image-2 de Microsoft entra en el top tres de generadores de imágenes de IA.

      La segunda versión del modelo de imagen interno de Microsoft ocupa el puesto #3 en la tabla de clasificación de Arena.ai, solo detrás de Google y OpenAI, y comienza a implementarse hoy en Copilot y Bing Image Creator.

      Hace un año, Microsoft generaba imágenes para Bing y Copilot casi en su totalidad con los modelos de OpenAI. El jueves, el equipo interno de la compañía anunció MAI-Image-2, un modelo de imagen de segunda generación que ha debutado en el número tres en la tabla de clasificación de texto a imagen de Arena.ai, colocando la tecnología propia de Microsoft directamente detrás de Gemini 3.1 Flash de Google y GPT Image 1.5 de OpenAI.

      El anuncio proviene del equipo de Superinteligencia AI de Microsoft, el grupo de investigación interno que Mustafa Suleyman formó en noviembre de 2025 y que ahora lidera a tiempo completo tras una reorganización de liderazgo en Microsoft anunciada hace solo dos días.

      Mustafa Suleyman se retiró de su papel más amplio como CEO de Microsoft AI el lunes para centrarse exclusivamente en ese equipo y sus ambiciones de modelos de frontera. MAI-Image-2 es el primer modelo en llegar públicamente desde ese cambio.

      MAI-Image-1, el predecesor, se lanzó en octubre de 2025 y debutó en el top diez en LMArena, la misma tabla de clasificación de preferencias basada en la multitud, entonces conocida por un nombre ligeramente diferente.

      En ese momento, era el primer modelo de generación de imágenes de Microsoft desarrollado completamente internamente, y la compañía lo integró en Bing Image Creator y Copilot junto a DALL-E 3 y GPT-4o. MAI-Image-2 extiende esa trayectoria: construido con la aportación de fotógrafos, diseñadores y narradores visuales, y enfocado en tres áreas donde los creativos dijeron que la brecha era más grande.

      La primera es el fotorrealismo, luz natural, tonos de piel precisos, entornos con textura física y desgaste. Microsoft dice que el modelo está diseñado para reducir el trabajo de postproducción que actualmente existe entre la generación y la salida utilizable.

      La segunda es el texto en la imagen: MAI-Image-2 está diseñado para manejar letras legibles dentro de escenas, desde señalización hasta infografías y diseños tipográficos, una categoría donde muchos modelos de imagen aún luchan por producir caracteres consistentes y precisos.

      La tercera es la generación de escenas detalladas: composiciones densas, conceptos surrealistas, encuadres cinematográficos y el tipo de trabajo imaginativo donde la indicación precisa y la alta fidelidad son más importantes.

      El acceso se está implementando a través de múltiples canales. El MAI Playground, el entorno público de pruebas de modelos de Microsoft en playground.microsoft.ai, tiene el modelo disponible ahora. MAI-Image-2 también está comenzando a implementarse en Copilot y Bing Image Creator.

      Los clientes empresariales pueden acceder al modelo a través de API hoy, y Microsoft dice que el acceso a la API se abrirá a cualquier desarrollador a través de Microsoft Foundry "pronto", aunque no se ha dado una fecha específica para esa disponibilidad más amplia. Un formulario de aplicación comercial está disponible para organizaciones interesadas en el uso de generación de imágenes a gran escala.

      El anuncio también señala que el clúster de computación de próxima generación GB200 del equipo ya está operativo, una referencia al hardware de arquitectura Blackwell de NVIDIA. No se proporcionaron detalles sobre la escala del clúster. La afirmación de infraestructura parece estar posicionando el contexto para los modelos que el equipo de superinteligencia planea lanzar a continuación, más que una especificación técnicamente verificable.

      El ritmo es notable. Microsoft anunció su primer modelo de voz interno (MAI-Voice-1) y su primera vista previa de modelo de texto (MAI-1-preview) en agosto de 2025. MAI-Image-1 siguió en octubre. Ahora, cinco meses después, el segundo modelo de generación de imágenes se coloca entre los tres primeros en la tabla de clasificación de imágenes más citada y basada en la multitud en el campo.

      Ese ritmo sugiere que el equipo de superinteligencia se está moviendo a un ritmo diferente al de los ciclos de productos de consumo históricamente más lentos de Microsoft, y lo está haciendo con hardware e infraestructura que posee cada vez más en lugar de alquilar de OpenAI.

Otros artículos

Bluesky recauda $100 millones en una Serie B mientras un nuevo CEO asume el cargo Bluesky reveló una ronda de financiación Serie B de $100 millones liderada por Bain Capital Crypto, una ronda que se cerró el pasado abril, y un nuevo CEO asume el cargo.

Estás obteniendo un VPN gratuito en Firefox, aquí está por qué es importante. Firefox está añadiendo un VPN gratuito integrado con 50GB de datos mensuales, con el objetivo de resolver problemas de confianza en torno a las herramientas de privacidad gratuitas mientras mantiene la protección dentro del navegador.

DoorDash lanza Tareas DoorDash ha lanzado Tasks, una aplicación independiente que paga a los Dashers por filmar tareas del hogar y grabar discursos para entrenar modelos de IA.

La agritech alemana eternal.ag recauda 8 millones de euros. eternal.ag ha recaudado 8 millones de euros para desplegar robots autónomos de cosecha de tomates entrenados en invernaderos virtuales antes de su implementación en el mundo real.

El navegador Vivaldi obtiene un modo inmersivo personalizable que desearía que Safari o Chrome ofrecieran. Vivaldi 7.9 trae un modo de pantalla completa más flexible y una mejor organización de pestañas. Es un paso adelante de Chrome y Safari, especialmente si deseas tener control sobre tu experiencia de navegación.

El MAI-Image-2 de Microsoft entra en el top tres de generadores de imágenes de IA.

El MAI-Image-2 de Microsoft debuta en el #3 en la tabla de clasificación de texto a imagen de Arena.ai, detrás de Google y OpenAI, y comienza a implementarse en Copilot.