Claude Opus 4.7 lidera en SWE-bench y razonamiento agente, superando a GPT-5.4 y Gemini 3.1 Pro.

      En resumen: Anthropic ha lanzado Claude Opus 4.7, su modelo más capaz disponible en general, con puntuaciones líderes en benchmarks en SWE-bench Pro (64.3% frente al 57.7% de GPT-5.4), coordinación multiagente para flujos de trabajo de horas, resolución de imagen 3 veces mayor y una mejora del 14% en el razonamiento agente en múltiples pasos con un tercio de los errores de la herramienta. Con un precio de $5/$25 por millón de tokens, está disponible en los planes de Claude y a través de Amazon Bedrock, Vertex AI y Microsoft Foundry.

      Anthropic ha lanzado Claude Opus 4.7, su modelo más capaz disponible hasta la fecha, con un rendimiento líder en benchmarks en ingeniería de software y razonamiento agente que amplía la brecha entre Claude y tanto GPT-5.4 de OpenAI como Gemini 3.1 Pro de Google en las tareas que más importan a los desarrolladores y usuarios empresariales.

      El lanzamiento llega en un momento en que el impulso comercial de Anthropic es difícil de exagerar. La empresa opera a un ritmo de ingresos anualizados de $30 mil millones, ha atraído ofertas de inversores por aproximadamente $800 mil millones y está en conversaciones iniciales para una OPI. Opus 4.7 es el modelo que debe justificar esos números, no ganando cada benchmark, sino siendo el modelo que las empresas y desarrolladores eligen para construir.

      Dónde lidera

      Los números destacados están en ingeniería de software. En SWE-bench Pro, el benchmark que prueba la capacidad de un modelo para resolver problemas de software del mundo real a partir de repositorios de código abierto, Opus 4.7 obtiene un 64.3%, frente al 53.4% de Opus 4.6 y muy por delante del 57.7% de GPT-5.4 y el 54.2% de Gemini 3.1 Pro. En SWE-bench Verified, un subconjunto curado, la puntuación es del 87.6%, en comparación con el 80.8% de su predecesor y el 80.6% de Gemini 3.1 Pro.

      CursorBench, que mide el rendimiento de codificación autónoma en el popular editor de código AI, muestra un salto similar: 70%, frente al 58% de Opus 4.6. Para un modelo que ya es la opción predeterminada en Cursor y Claude Code, la mejora en el benchmark más directamente relacionado con cómo los desarrolladores realmente lo utilizan es significativa. Claude Code solo alcanzó $2.5 mil millones en ingresos anualizados en febrero, y la codificación asistida por IA se ha convertido en una de las categorías de más rápido crecimiento en software.

      En razonamiento a nivel de posgrado, medido por GPQA Diamond, el campo se ha convergido. Opus 4.7 obtiene un 94.2%, GPT-5.4 Pro obtiene un 94.4%, y Gemini 3.1 Pro obtiene un 94.3%. Las diferencias están dentro del ruido. Los modelos de frontera han saturado efectivamente este benchmark, lo que significa que la diferenciación competitiva se está desplazando de las puntuaciones de razonamiento en bruto hacia el rendimiento aplicado en tareas complejas y de múltiples pasos.

      El paso agente

      Las mejoras más significativas de Opus 4.7 pueden no ser capturadas por ningún benchmark único. Anthropic dice que el modelo ofrece una mejora del 14% sobre Opus 4.6 en flujos de trabajo complejos de múltiples pasos mientras utiliza menos tokens y produce un tercio de los errores de la herramienta. Es el primer modelo Claude en pasar lo que Anthropic llama "pruebas de necesidad implícita", tareas donde el modelo debe inferir qué herramientas o acciones se requieren en lugar de que se le diga explícitamente.

      El modelo también introduce la coordinación multiagente, la capacidad de orquestar flujos de trabajo paralelos de IA en lugar de procesar tareas secuencialmente. Para los usuarios empresariales que ejecutan Claude en revisión de código, análisis de documentos y procesamiento de datos simultáneamente, esta es la clase de capacidad que se traduce directamente en rendimiento. Anthropic dice que Opus 4.7 está diseñado para mantener el enfoque durante flujos de trabajo de horas, una afirmación que, si se sostiene, aborda una de las quejas más comunes sobre los modelos de frontera: que pierden coherencia y precisión en tareas extendidas de agente.

      La resiliencia es otro énfasis. El modelo está diseñado para continuar ejecutándose a través de fallos de herramientas que habrían detenido a Opus 4.6, recuperándose y adaptándose en lugar de detenerse. Para tuberías automatizadas donde un solo fallo puede tener un efecto en cascada, este tipo de robustez importa más que las ganancias marginales en benchmarks.

      Visión y contexto

      Opus 4.7 procesa imágenes a resoluciones de hasta 2,576 píxeles en el lado largo, más de tres veces la capacidad de los modelos Claude anteriores. La mejora está dirigida al análisis de documentos empresariales, donde contratos escaneados, dibujos técnicos y estados financieros a menudo contienen letra pequeña y detalles que los modelos de visión de baja resolución pierden o alucinan.

      La ventana de contexto se mantiene en un millón de tokens, la mitad de los dos millones de Gemini 3.1 Pro, pero suficiente para la mayoría de los casos de uso empresarial. En benchmarks de investigación de contexto largo, Opus 4.7 empató por la puntuación general más alta en 0.715 a través de seis módulos de investigación y entregó lo que los evaluadores describieron como el rendimiento de contexto largo más consistente de cualquier modelo probado.

      Anthropic señala que el modelo sigue instrucciones de manera más literal que sus predecesores, un cambio que puede requerir que los usuarios ajusten los prompts existentes. Este es un compromiso: un seguimiento de instrucciones más estricto reduce la ambigüedad que a veces produce salidas creativas o inesperadas, pero también reduce la alucinación y el comportamiento fuera de tarea que frustra las implementaciones empresariales.

      Precios y disponibilidad

      Opus 4.7 está disponible de inmediato en los planes Claude Pro, Max, Team y Enterprise, y a través de la API a $5 por millón de tokens de entrada y $25 por millón de tokens de salida. La caché de prompts ofrece hasta un 90% de ahorro en costos, y la API por lotes proporciona un 50% de descuento tanto en entrada como en salida. El modelo también está disponible a través de Amazon Bedrock, Vertex AI de Google Cloud y Microsoft Foundry.

      Los precios no han cambiado desde Opus 4.6, lo que significa que Anthropic está ofreciendo un rendimiento sustancialmente mejor al mismo costo. Gemini 3.1 Pro lo supera a $2 y $12 por millón de tokens para entrada y salida respectivamente, pero la ventaja de Opus 4.7 en los benchmarks que importan a los compradores empresariales, particularmente SWE-bench y razonamiento agente, puede justificar la prima para los clientes cuyos flujos de trabajo exigen la mayor capacidad.

      Anthropic también ha añadido salvaguardias cibernéticas que detectan y bloquean automáticamente solicitudes que indican usos de ciberseguridad prohibidos o de alto riesgo, un guiño a las preocupaciones de uso dual que llevaron a la empresa a restringir su modelo más potente, Mythos, a solo 11 organizaciones bajo el Proyecto Glasswing.

      Lo que significa

      Opus 4.7 no es un cambio de paradigma. Es una mejora significativa en cada dimensión que importa a las personas que pagan por Claude: mejor codificación, mejor razonamiento agente, mejor visión, mejor seguimiento de instrucciones y mejor resiliencia en tareas largas. El modelo no gana cada benchmark contra cada competidor, pero gana de manera convincente en aquellos más directamente relacionados con la productividad del mundo real.

      Para Anthropic, el lanzamiento refuerza la posición que ha impulsado su extraordinario crecimiento en ingresos. Claude es el modelo que los desarrolladores y empresas eligen cuando necesitan resultados confiables y de alta calidad en trabajos complejos. Opus 4.7 extiende esa ventaja en un momento en que la trayectoria comercial de la empresa depende de ello. La competencia está cerca y cerrándose. Pero por ahora, en las tareas que generan más ingresos, Anthropic tiene el mejor modelo en el mercado.

Otros artículos

Las filtraciones de Microsoft predicen lo obvio: La línea Surface no tiene respuesta para el MacBook Neo. Los planes filtrados para la línea Surface de Microsoft de 2026 muestran mejoras en la pantalla y un lanzamiento de chip en dos etapas, sin embargo, la compañía aún no tiene nada para los compradores que miran el MacBook Neo de Apple.

Tesla pone la vista en la Gigafábrica de Shanghái para la producción en masa del robot humanoide Optimus El presidente de Tesla en China llama a la Gigafábrica de Shanghái una "clave dorada" para la producción del robot Optimus, ya que la planta que fabrica la mitad de los coches de Tesla apunta a la fabricación de humanoides.

Solidroad recauda $25 millones en una ronda de financiación Serie A para automatizar la garantía de calidad del soporte al cliente con IA. Solidroad, fundada por exalumnos de Intercom, recauda $25 millones de Hedosophia para aplicar aseguramiento de calidad de IA al 100% de las interacciones de soporte al cliente para clientes como Ryanair y Crypto.com.

Tesla pone la mira en la Gigafábrica de Shanghái para la producción en masa del robot humanoide Optimus El presidente de Tesla en China llama a la Gigafábrica de Shanghái una "clave dorada" para la producción del robot Optimus, ya que la planta que fabrica la mitad de los coches de Tesla apunta a la fabricación de humanoides.

Google añade la generación de imágenes de Nano Banana a la función de Inteligencia Personal de Gemini. Gemini de Google ahora puede generar imágenes utilizando el contexto personal de Gmail, Photos y Drive a través de Nano Banana, que se está implementando para suscriptores en EE. UU. con Europa excluida.

Claude Opus 4.7 lidera en SWE-bench y razonamiento agente, superando a GPT-5.4 y Gemini 3.1 Pro.

Claude Opus 4.7 de Anthropic obtiene un 64.3% en SWE-bench Pro, añade coordinación entre múltiples agentes y una resolución de visión 3x, al mismo precio que su predecesor.