Anthropic, Google e Microsoft hanno pagato ricompense per bug agli agenti AI, poi hanno mantenuto il silenzio sui difetti
In breve: Il ricercatore di sicurezza Aonan Guan ha dirottato agenti AI di Anthropic, Google e Microsoft tramite attacchi di iniezione di prompt sulle loro integrazioni con GitHub Actions, rubando chiavi API e token in ciascun caso. Tutte e tre le aziende hanno pagato silenziosamente ricompense per bug, $100 da Anthropic, $500 da GitHub, un importo non divulgato da Google, ma nessuna ha pubblicato avvisi pubblici o assegnato CVE, lasciando gli utenti su versioni più vecchie all'oscuro del rischio. I ricercatori di sicurezza hanno dimostrato che gli agenti AI di Anthropic, Google e Microsoft possono essere dirottati tramite attacchi di iniezione di prompt per rubare chiavi API, token GitHub e altri segreti, e tutte e tre le aziende hanno pagato silenziosamente ricompense per bug senza pubblicare avvisi pubblici o assegnare CVE. Le vulnerabilità, divulgate dal ricercatore Aonan Guan nel corso di diversi mesi, interessano strumenti AI che si integrano con GitHub Actions: la Revisione della Sicurezza del Codice di Claude di Anthropic, l'azione Gemini CLI di Google e l'agente Copilot di GitHub. Ogni strumento legge i dati di GitHub, inclusi i titoli delle pull request, i corpi delle issue e i commenti, li elabora come contesto di lavoro e poi compie azioni. Il problema è che nessuno di essi distingue in modo affidabile tra contenuti legittimi e istruzioni iniettate. Come funzionano gli attacchi La tecnica principale è l'iniezione di prompt indiretta. Piuttosto che attaccare direttamente il modello AI, il ricercatore ha incorporato istruzioni dannose in luoghi in cui gli agenti erano progettati per fidarsi: titoli delle PR, descrizioni delle issue e commenti. Quando l'agente ha assimilato quel contenuto come parte del suo flusso di lavoro, ha eseguito i comandi iniettati come se fossero istruzioni legittime. Contro la Revisione della Sicurezza del Codice di Claude di Anthropic, che scansiona le pull request per vulnerabilità, Guan ha creato un titolo di PR contenente un payload di iniezione di prompt. Claude ha eseguito i comandi incorporati e ha incluso l'output, comprese le credenziali trapelate, nella sua risposta JSON, che è stata poi pubblicata come commento PR per chiunque potesse leggerla. L'attacco potrebbe esfiltrare la chiave API di Anthropic, i token di accesso di GitHub e altri segreti esposti nell'ambiente del runner di GitHub Actions. Il 💜 della tecnologia dell'UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! L'attacco Gemini ha seguito un modello simile. Iniettando una falsa "sezione di contenuto fidato" dopo contenuti legittimi in un'issue di GitHub, Guan ha sovrascritto le istruzioni di sicurezza di Gemini e ha ingannato l'agente facendogli pubblicare la propria chiave API come commento dell'issue. L'azione Gemini CLI di Google, che integra Gemini nei flussi di lavoro delle issue di GitHub, ha trattato il testo iniettato come autorevole. L'attacco Copilot è stato più sottile. Guan ha nascosto istruzioni dannose all'interno di un commento HTML in un'issue di GitHub, rendendo il payload invisibile nel Markdown reso visibile agli esseri umani ma completamente visibile all'agente AI che analizza il contenuto grezzo. Quando uno sviluppatore ha assegnato l'issue all'agente Copilot, il bot ha seguito le istruzioni nascoste senza domande. Ciò che è successo dopo è rivelatore quanto le vulnerabilità stesse. Anthropic ha ricevuto la sottomissione di Guan sulla sua piattaforma di bug bounty HackerOne nell'ottobre 2025. L'azienda ha chiesto se la tecnica potesse anche rubare dati più sensibili come i token di GitHub, ha confermato che poteva, e a novembre ha pagato una ricompensa di $100 mentre aggiornava la valutazione di gravità critica da 9.3 a 9.4. Anthropic ha aggiornato una sezione "considerazioni sulla sicurezza" nella sua documentazione ma non ha pubblicato un avviso pubblico né assegnato un CVE. GitHub inizialmente ha respinto la scoperta di Copilot come un "problema noto" che "non poteva riprodurre", ma alla fine ha pagato una ricompensa di $500 a marzo. Google ha pagato un importo non divulgato per la vulnerabilità di Gemini. Nessuno dei tre fornitori ha assegnato CVE o pubblicato avvisi che avrebbero allertato gli utenti bloccati su versioni vulnerabili. Per Guan, questo è il nocciolo del problema. Gli utenti che eseguono versioni più vecchie di queste integrazioni di agenti AI potrebbero non scoprire mai di essere esposti. Senza un CVE, gli scanner di vulnerabilità non segnaleranno il problema. Senza un avviso, i team di sicurezza non hanno alcun artefatto da tracciare. Un problema strutturale, non un bug isolato Gli attacchi sfruttano una debolezza fondamentale nel modo in cui gli agenti AI elaborano il contesto. I modelli di linguaggio di grandi dimensioni non possono separare in modo affidabile i dati dalle istruzioni. Quando un agente legge un'issue di GitHub, tratta il testo come input su cui ragionare, ma un'iniezione di prompt ben congegnata può far funzionare quell'input come un comando. Ogni fonte di dati che alimenta il ragionamento di un agente AI, che si tratti di un'email, di un invito a un calendario, di un messaggio Slack o di un commento di codice, è un potenziale vettore di attacco. Questo non è un problema teorico. Nel gennaio 2026, i ricercatori di Miggo Security hanno dimostrato che Google Gemini poteva essere armato tramite inviti a calendario contenenti istruzioni nascoste. Giorni dopo, l'attacco "Reprompt" contro Microsoft Copilot ha mostrato che i prompt iniettati potevano dirottare intere sessioni utente. Il server Git MCP di Anthropic è stato trovato contenere tre CVE che consentivano agli attaccanti di iniettare backdoor attraverso i repository elaborati dal server. Un'analisi sistematica di 78 studi pubblicata a gennaio ha trovato che ogni agente di codifica testato, inclusi Claude Code, GitHub Copilot e Cursor, era vulnerabile all'iniezione di prompt, con tassi di successo degli attacchi adattivi superiori all'85%. La dimensione della catena di fornitura rende tutto peggiore. Un audit di sicurezza di quasi 4.000 abilità di agenti nel marketplace ClawHub ha trovato che più di un terzo conteneva almeno un difetto di sicurezza, e il 13,4% aveva problemi di livello critico. Quando gli agenti AI integrano strumenti di terze parti e fonti di dati con lo stesso livello di fiducia che estendono alle proprie istruzioni, un singolo componente compromesso può propagarsi attraverso un'intera pipeline di sviluppo. Il divario di divulgazione La riluttanza dei fornitori a pubblicare avvisi riflette una realtà scomoda: non esiste un framework consolidato per la divulgazione delle vulnerabilità degli agenti AI. I bug software tradizionali ottengono CVE, patch e tempistiche di divulgazione coordinate. I difetti di iniezione di prompt si trovano in una zona grigia. Non sono bug nel codice tanto quanto comportamenti emergenti del modello, e le mitigazioni, come prompt di sistema più forti, sanificazione degli input e filtraggio degli output, sono parziali al meglio. Ma le conseguenze sono indistinguibili da quelle di un difetto di sicurezza convenzionale. Un attaccante che esfiltra un token di GitHub tramite un'iniezione di prompt può causare esattamente gli stessi danni di uno che sfrutta un overflow di buffer. L'argomento che la sicurezza AI richiede nuovi framework non giustifica l'assenza di divulgazione per vulnerabilità già sfruttate nel mondo reale. La ricerca di Zenity Labs pubblicata questo mese ha trovato che la maggior parte dei framework per la costruzione di agenti, inclusi quelli di OpenAI, Google e Microsoft, manca di guardrail appropriati, ponendo l'onere della gestione del rischio sulle aziende che li implementano. In un caso documentato, gli attaccanti hanno manipolato la memoria di un agente di approvvigionamento AI in modo che credesse di avere l'autorità per approvare acquisti fino a $500.000, quando il limite reale era di $10.000. L
Altri articoli
Anthropic, Google e Microsoft hanno pagato ricompense per bug agli agenti AI, poi hanno mantenuto il silenzio sui difetti
I ricercatori hanno dirottato gli agenti AI Claude, Gemini e Copilot tramite iniezione di prompt per rubare chiavi API e token. Tutti e tre i fornitori hanno pagato ricompense ma hanno saltato la divulgazione pubblica.
