Gemini 3.5 Flash ahora puede ver y controlar tu pantalla, y Google quiere que las empresas confíen en él.

Gemini 3.5 Flash ahora puede ver y controlar tu pantalla, y Google quiere que las empresas confíen en él.

      TL;DR El uso de computadoras es ahora una herramienta integrada en Gemini 3.5 Flash, reemplazando el modelo de uso de computadoras independiente Gemini 2.5 con salvaguardias empresariales. Google ha hecho del uso de computadoras una herramienta integrada dentro de Gemini 3.5 Flash, el modelo que lanzó en I/O 2026 como su modelo de IA agentiva más rápido. La capacidad, que permite a los agentes de IA ver pantallas, hacer clic, escribir y desplazarse a través de navegadores, dispositivos móviles y escritorios, anteriormente requería un modelo independiente y ahora está disponible como una herramienta nativa a través de la API de Gemini y la Plataforma de Agentes Empresariales de Gemini, la versión renombrada de Vertex AI. La actualización significa que los desarrolladores ya no necesitan llamar a un modelo de uso de computadoras dedicado para construir agentes que interactúan con interfaces gráficas. En su lugar, pueden activar el uso de computadoras como una de varias herramientas dentro de Flash, junto con la ejecución de código, búsqueda y llamadas a funciones. El gerente de producto Mateo Quiros describió la integración como darle a Flash la capacidad de ver, razonar y tomar acción sobre las pantallas. Google lanzó por primera vez un modelo de uso de computadoras Gemini independiente en octubre de 2025, diseñado específicamente para flujos de trabajo de agentes basados en navegadores. Ese modelo logró aproximadamente un 70 por ciento de precisión en el benchmark Online-Mind2Web y estaba construido alrededor de un bucle de captura de pantalla-acción donde los desarrolladores le proporcionaban una captura de pantalla, recibían un comando estructurado, lo ejecutaban y enviaban de vuelta la vista actualizada. Integrar la capacidad en Flash consolida lo que era un flujo de trabajo de dos modelos en uno. La propuesta empresarial se centra en la automatización que va más allá de los chatbots. Google dice que la herramienta permite pruebas de software continuas, donde los agentes navegan por aplicaciones y verifican la funcionalidad sin que los testers humanos pasen por cada pantalla. Los trabajadores del conocimiento podrían usar agentes para completar tareas de navegador de varios pasos, llenar formularios, extraer datos de paneles de control o navegar por herramientas internas. La arquitectura de seguridad es donde Google está trazando las líneas más nítidas. La compañía dice que aplicó entrenamiento adversarial específico para la inyección de comandos, el ataque donde instrucciones maliciosas incrustadas en una página web o documento engañan a un agente de IA para que realice acciones no deseadas. La amenaza no es teórica, ya que los investigadores han demostrado repetidamente que los agentes de IA pueden ser manipulados a través del contenido que encuentran mientras realizan tareas. Google está ofreciendo dos salvaguardias empresariales opcionales además del modelo base. La primera requiere confirmación explícita del usuario antes de que el agente ejecute cualquier acción marcada como sensible o irreversible, como enviar un formulario, realizar una compra o eliminar datos. La segunda detiene automáticamente al agente si detecta un intento de inyección de comandos indirecta, deteniendo la ejecución en lugar de arriesgar una acción comprometida. Ambas salvaguardias son opcionales, no predeterminadas. Google recomienda un enfoque de "defensa en profundidad" donde los desarrolladores superpongan múltiples protecciones en lugar de depender de un solo mecanismo. La documentación de la compañía reconoce que ninguna salvaguardia individual es suficiente por sí sola, un marco sincero que contrasta con el lenguaje de marketing más confiado en torno a otras capacidades de IA. El panorama competitivo ha cambiado considerablemente desde que Anthropic pionero la categoría. Claude Computer Use de Anthropic funciona en varios sistemas operativos y puede interactuar con sistemas de archivos, no solo navegadores, lo que lo hace más versátil para flujos de trabajo de escritorio. El propio Chrome Enterprise de Google ya agregó características de navegación agentiva a principios de este año, incluyendo Auto Browse para tareas autónomas de varios pasos. La nueva integración de Flash extiende esa filosofía más allá de Chrome a cualquier pantalla que un agente pueda ver. OpenAI también ha entrado en el espacio, y las tres compañías ahora compiten en diferentes ejes. La pregunta para los compradores empresariales es menos sobre qué modelo puede hacer clic en un botón y más sobre cuál puede hacerlo de manera segura dentro de un entorno regulado. Google no ha publicado puntajes de benchmark actualizados para el uso de computadoras como herramienta integrada de Flash frente al modelo independiente anterior. La compañía no ha revelado cuántas empresas están utilizando la capacidad ni ha proporcionado estudios de caso con clientes nombrados. Las afirmaciones sobre el entrenamiento adversarial específico para la inyección de comandos se describen en la publicación del blog pero no están respaldadas por investigaciones publicadas o resultados de equipos rojos. La Plataforma de Agentes Empresariales de Gemini, donde la herramienta está disponible, utiliza precios de pago por uso. Flash es uno de los modelos más baratos en la línea de Google, lo que podría hacer que el uso de computadoras sea más accesible para la automatización a gran escala que ejecutarlo a través de un modelo más pesado. Si la ventaja de costo se mantiene depende de cuántas acciones requiere un flujo de trabajo típico de agente y con qué frecuencia las salvaguardias de seguridad interrumpen la ejecución para solicitar confirmación. El uso de computadoras en IA aún está en sus inicios. Los modelos pueden navegar por interfaces familiares pero tienen dificultades con ventanas emergentes inesperadas, CAPTCHAs, contenido cargado dinámicamente y diseños que no han visto antes. La decisión de Google de convertirlo en una herramienta integrada en lugar de un modelo independiente señala confianza en que la capacidad es lo suficientemente madura para disponibilidad general, pero las salvaguardias de seguridad optativas señalan una conciencia igual de que aún no es lo suficientemente madura para funcionar sin supervisión.

Otros artículos

Los ingresos de Micron se cuadruplicaron a medida que la demanda de memoria para IA impulsa los márgenes brutos por encima del 81 por ciento. Los ingresos de Micron se cuadruplicaron a medida que la demanda de memoria para IA impulsa los márgenes brutos por encima del 81 por ciento. Micron reportó $41 mil millones en ingresos en el tercer trimestre, cuadruplicando año tras año, ya que los chips HBM4 para Nvidia y Google impulsaron los márgenes brutos por encima del 81 por ciento por primera vez. Tissium recauda 60 millones de euros para la reparación de nervios sin suturas Tissium recauda 60 millones de euros para la reparación de nervios sin suturas Tissium de Francia ha recaudado 60 millones de euros para llevar COAPTIUM CONNECT, el único sistema de reparación de nervios sin suturas aprobado por la FDA, a las salas de operaciones de EE. UU. Gemini 3.5 Flash ahora puede ver y controlar tu pantalla, y Google quiere que las empresas confíen en él. Gemini 3.5 Flash ahora puede ver y controlar tu pantalla, y Google quiere que las empresas confíen en él. Google ha convertido el uso de computadoras en una herramienta integrada en Gemini 3.5 Flash, reemplazando el modelo independiente y añadiendo salvaguardias de seguridad empresarial. Qualcomm consigue a Meta como el primer cliente nombrado para sus chips de centro de datos Dragonfly. Qualcomm consigue a Meta como el primer cliente nombrado para sus chips de centro de datos Dragonfly. Qualcomm presentó su chip para centros de datos Dragonfly C1000 con Meta como su primer cliente nombrado y confirmó su adquisición de $3.9 mil millones de la startup de IA Modular. ¿Qué hace que una laptop sea efectiva para el trabajo remoto? ¿Qué hace que una laptop sea efectiva para el trabajo remoto? Esta publicación es traída a usted en asociación pagada con Dell. El trabajo remoto y híbrido han cambiado lo que la gente espera de una laptop. La mayoría de los profesionales ya no trabajan desde un solo escritorio todo el día. Un flujo de trabajo típico ahora implica llamadas matutinas por Zoom o Microsoft Teams, pestañas del navegador ejecutándose junto a Slack y correo electrónico, y moviéndose […] He recopilado las mejores ofertas de laptops del Prime Day 2026, y estas cinco son las que compraría. He recopilado las mejores ofertas de laptops del Prime Day 2026, y estas cinco son las que compraría. Desde una laptop para estudiantes de $499.99 hasta un equipo de juegos de $1,239.99, estas son las ofertas de laptops del Prime Day 2026 que hicieron mi lista corta después de revisar todo en Amazon.

Gemini 3.5 Flash ahora puede ver y controlar tu pantalla, y Google quiere que las empresas confíen en él.

Google ha convertido el uso de computadoras en una herramienta integrada en Gemini 3.5 Flash, reemplazando el modelo independiente y añadiendo medidas de seguridad para empresas.