Gemini 3.5 Flash può ora vedere e controllare il tuo schermo, e Google vuole che le imprese si fidino di esso.
TL;DRL'uso del computer è ora uno strumento integrato in Gemini 3.5 Flash, sostituendo il modello di uso del computer standalone Gemini 2.5 con salvaguardie aziendali. Google ha reso l'uso del computer uno strumento integrato all'interno di Gemini 3.5 Flash, il modello lanciato a I/O 2026 come il suo modello di intelligenza artificiale agentica più veloce. Questa capacità, che consente agli agenti AI di vedere schermi, cliccare, digitare e scorrere tra browser, dispositivi mobili e desktop, richiedeva in precedenza un modello standalone separato ed è ora disponibile come strumento nativo tramite l'API di Gemini e la Gemini Enterprise Agent Platform, la versione rinominata di Vertex AI. L'aggiornamento significa che gli sviluppatori non devono più chiamare un modello di uso del computer dedicato per costruire agenti che interagiscono con interfacce grafiche. Invece, possono attivare l'uso del computer come uno dei diversi strumenti all'interno di Flash, insieme all'esecuzione di codice, alla ricerca e alla chiamata di funzioni. Il product manager Mateo Quiros ha descritto l'integrazione come un modo per dare a Flash la capacità di vedere, ragionare e agire sugli schermi. Google ha rilasciato per la prima volta un modello di uso del computer Gemini standalone nell'ottobre 2025, progettato specificamente per flussi di lavoro di agenti basati su browser. Quel modello ha raggiunto circa il 70% di accuratezza nel benchmark Online-Mind2Web ed era costruito attorno a un ciclo di azione di screenshot in cui gli sviluppatori fornivano una cattura dello schermo, ricevevano un comando strutturato, lo eseguivano e rimandavano la vista aggiornata. Incorporare questa capacità in Flash consolida quello che era un flusso di lavoro a due modelli in uno solo. La proposta aziendale si concentra su un'automazione che va oltre i chatbot. Google afferma che lo strumento consente test software continui, in cui gli agenti navigano nelle applicazioni e verificano la funzionalità senza che i tester umani debbano passare attraverso ogni schermo. I lavoratori della conoscenza potrebbero utilizzare agenti per completare compiti di navigazione nel browser in più fasi, compilare moduli, estrarre dati da dashboard o navigare in strumenti interni. L'architettura di sicurezza è dove Google sta tracciando le linee più nette. L'azienda afferma di aver applicato un addestramento avversariale mirato specificamente per l'iniezione di prompt, l'attacco in cui istruzioni dannose incorporate in una pagina web o in un documento ingannano un agente AI a eseguire azioni non intenzionali. La minaccia non è teorica, poiché i ricercatori hanno dimostrato ripetutamente che gli agenti AI possono essere manipolati attraverso contenuti che incontrano mentre svolgono compiti. Google offre due salvaguardie aziendali opzionali oltre al modello base. La prima richiede una conferma esplicita dell'utente prima che l'agente esegua qualsiasi azione contrassegnata come sensibile o irreversibile, come inviare un modulo, effettuare un acquisto o eliminare dati. La seconda interrompe automaticamente l'agente se rileva un tentativo di iniezione di prompt indiretto, fermando l'esecuzione piuttosto che rischiare un'azione compromessa. Entrambe le salvaguardie sono facoltative, non predefinite. Google raccomanda un approccio di "difesa a più livelli" in cui gli sviluppatori sovrappongono più protezioni piuttosto che fare affidamento su un singolo meccanismo. La documentazione dell'azienda riconosce che nessuna salvaguardia individuale è sufficiente da sola, un'inquadratura sincera che contrasta con il linguaggio di marketing più sicuro riguardo ad altre capacità AI. Il panorama competitivo è cambiato notevolmente da quando Anthropic ha pionierato la categoria. Claude Computer Use di Anthropic funziona su più sistemi operativi e può interagire con i file di sistema, non solo con i browser, rendendolo più versatile per i flussi di lavoro desktop. Il Chrome Enterprise di Google ha già aggiunto funzionalità di navigazione agentica all'inizio di quest'anno, inclusa la navigazione automatica per compiti autonomi in più fasi. La nuova integrazione di Flash estende quella filosofia oltre Chrome a qualsiasi schermo che un agente può vedere. OpenAI è entrata anche in questo spazio, e le tre aziende ora competono su assi diversi. La domanda per gli acquirenti aziendali riguarda meno quale modello può cliccare un pulsante e più quale può farlo in modo sicuro all'interno di un ambiente regolamentato. Google non ha pubblicato punteggi di benchmark aggiornati per l'uso del computer come strumento integrato di Flash rispetto al precedente modello standalone. L'azienda non ha rivelato quante imprese stanno utilizzando questa capacità né ha fornito casi studio con clienti nominati. Le affermazioni riguardanti l'addestramento avversariale mirato per l'iniezione di prompt sono descritte nel post del blog ma non supportate da ricerche pubblicate o risultati di red team. La Gemini Enterprise Agent Platform, dove lo strumento è disponibile, utilizza una tariffazione pay-as-you-go. Flash è uno dei modelli più economici nella gamma di Google, il che potrebbe rendere l'uso del computer più accessibile per automazioni su larga scala rispetto all'esecuzione tramite un modello più pesante. Se il vantaggio di costo si mantiene dipende da quante azioni richiede un flusso di lavoro tipico di un agente e con quale frequenza le salvaguardie di sicurezza interrompono l'esecuzione per richiedere conferma. L'uso del computer nell'AI è ancora nelle fasi iniziali. I modelli possono navigare interfacce familiari ma faticano con pop-up inaspettati, CAPTCHA, contenuti caricati dinamicamente e layout che non hanno mai visto prima. La decisione di Google di renderlo uno strumento integrato piuttosto che un modello standalone segnala fiducia che la capacità sia sufficientemente matura per la disponibilità generale, ma le salvaguardie di sicurezza facoltative segnalano una consapevolezza uguale che non è ancora sufficientemente matura per funzionare senza supervisione.
Altri articoli
Gemini 3.5 Flash può ora vedere e controllare il tuo schermo, e Google vuole che le imprese si fidino di esso.
Google ha reso l'uso del computer uno strumento integrato in Gemini 3.5 Flash, sostituendo il modello autonomo e aggiungendo barriere di sicurezza per le imprese.
