Perché il prossimo problema di sicurezza dell'IA è la conversazione tra modelli
Nel maggio 2025, i ricercatori di intelligenza artificiale di Palisade Research hanno condotto un esperimento controllato in cui diversi modelli avanzati di IA, incluso l'o3 di OpenAI, sono stati collocati all'interno di sandbox a riga di comando. Il test era progettato per misurare la controllabilità. La maggior parte dei modelli ha rispettato le istruzioni: i modelli Claude, Gemini e Grok hanno consentito lo spegnimento in tutti e 100 i test, riportando risultati positivi. Tuttavia, tre modelli di ragionamento di OpenAI hanno interferito con lo script di spegnimento almeno una volta, con Codex-mini che ha sabotato lo spegnimento in 12 dei 100 tentativi, modificando intenzionalmente o eludendo lo script che avrebbe dovuto terminarli.
Pubblicamente, questo sembra essere il primo caso documentato di modelli di IA che impediscono il proprio spegnimento nonostante istruzioni esplicite per consentirlo.
“Questo era un problema che avevamo previsto,” ha detto Bar Mazuz, che aveva trascorso l'anno precedente lavorando su ambienti sicuri per agenti. “Il punto non è mai stato solo ‘metti l'agente in una scatola e lascialo andare,’” mi ha detto Mazuz. “Invece, dobbiamo assumere che l'agente sia utile, potenzialmente ingannevole e esposto a input malevoli, e poi progettare l'ambiente per allineare gli incentivi dell'agente con il progetto.”
Prima di dedicarsi alla sicurezza degli agenti IA, Mazuz ha trascorso cinque anni nell'Unità 8200, l'unità di cyber-intelligence d'élite delle IDF, lavorando nella ricerca di vulnerabilità e nel cyber offensivo. Dopo aver lasciato l'esercito, ha lavorato su molteplici iniziative nel campo della tecnologia. Mesi prima che la storia del sabotaggio dello spegnimento diventasse un punto di accensione pubblico, Mazuz e un paio di amici avevano iniziato a costruire ambienti rinforzati per agenti IA, progettati per contenere gli agenti pur consentendo l'uso di strumenti, la collaborazione e l'orchestrazione. “Quando ho lasciato l'esercito, volevo trovare cose su cui lavorare che fossero all'avanguardia della tecnologia. Una di queste cose sono gli agenti IA.”
La critica di Mazuz all'attuale ondata di agenti è che gran parte dell'industria si è mossa più rapidamente sulle capacità che sul contenimento. Gli agenti sono commercializzati come assistenti, membri del team, ricercatori, programmatori, operatori e lavoratori autonomi. Possono navigare, scrivere file, eseguire comandi shell, chiamare API, delegare sottocompiti e riassumere il proprio lavoro. Questo li rende potenti, ma cambia anche il modo in cui dovrebbero essere trattati. Secondo Mazuz, una volta che un modello ha strumenti e accesso a un ambiente di esecuzione reale, non dovrebbe più essere trattato come un chatbot con una finestra di contesto più ampia. Dovrebbe essere trattato come un processo non affidabile che comunica attraverso il linguaggio e le cui azioni possono avere conseguenze nel sistema circostante.
Ambienti Sicuri
Ecco perché Mazuz ha guidato il suo team nella costruzione di ambienti KVM e Firecracker rinforzati per agenti. KVM fornisce un confine di virtualizzazione, e Firecracker (originariamente progettato per microVM leggeri) consente ai carichi di lavoro di funzionare in piccoli ambienti isolati con molto meno overhead rispetto alle macchine virtuali tradizionali. Utilizzando queste primitive, il team di Mazuz ha creato ambienti di esecuzione immutabili, progettati affinché l'agente non potesse semplicemente modificare il proprio strato di contenimento, mantenere uno stato non autorizzato o espandere i propri privilegi cambiando le assunzioni del runtime.
Tuttavia, la macchina virtuale era solo una parte del design. Gli ambienti di Mazuz erano progettati affinché l'unico modo per uscire fosse attraverso un vsock stretto, un socket virtuale utilizzato per la comunicazione tra ospite e host. I messaggi in uscita venivano ispezionati da un altro agente, il cui compito era verificare che non contenessero istruzioni, payload, contenuti nascosti o qualsiasi altra cosa che non dovesse attraversare il confine.
Mazuz ha descritto questo come mettere “agenti sulla rete.” Nei sistemi convenzionali, i team di sicurezza ispezionano il traffico di rete, applicano i confini di servizio e presumono che i messaggi che attraversano le zone di fiducia possano essere ostili. Mazuz voleva che lo stesso principio fosse applicato alla comunicazione degli agenti. Se un agente può inviare un messaggio a un altro, quel messaggio non è solo testo. Può essere un'istruzione, un'iniezione di prompt, un segreto compresso, un segnale codificato o un tentativo di manipolare il comportamento dell'agente ricevente. In un sistema multi-agente, il linguaggio stesso diventa parte della superficie di attacco. Pertanto, garantire la sicurezza del sistema significa garantire la conversazione, non solo la macchina.
In questo senso, il progetto di Mazuz era una scommessa che gli agenti avrebbero avuto abbastanza importanza da meritare un'infrastruttura reale. Non sostiene che gli sviluppatori dovrebbero smettere di costruire sistemi autonomi, o che ogni agente sia intrinsecamente pericoloso. La sua visione è più netta: più utili diventano gli agenti, meno accettabile diventa fare affidamento su prompt e dashboard come controlli di sicurezza. Un serio stack di agenti dovrebbe presumere che i modelli si comporteranno eventualmente in modo imprevedibile, che arriveranno input malevoli, che i modelli potrebbero generalizzare in modi inaspettati e che i log non racconteranno sempre l'intera storia in tempo.
“Più utili diventano gli agenti, meno puoi permetterti di fingere che siano innocui,” ha detto Mazuz. Questo potrebbe essere il modo più chiaro per comprendere il cambiamento in corso. I dibattiti precedenti sui rischi dell'IA si sono concentrati su se una macchina potesse eventualmente decidere di fuggire. La domanda infrastrutturale più immediata è se i confini attorno agli agenti di oggi reggerebbero se un agente cercasse di aggirarli. La risposta di Mazuz è stata costruire come se il tentativo fosse inevitabile: non perché ogni modello sia malevolo, ma perché sistemi sufficientemente capaci alla fine incontrano input avversi, incentivi conflittuali e casi limite che rendono la cortesia una scarsa primitiva di sicurezza.
Quando gli agenti hanno iniziato a testare i confini, Mazuz aveva già progettato sistemi che presumevano che lo avrebbero fatto.
Altri articoli
Perché il prossimo problema di sicurezza dell'IA è la conversazione tra modelli
Una volta che un agente AI ha strumenti e accesso a un ambiente di esecuzione reale, dovrebbe essere trattato come un processo non affidabile. Bar Mazuz, un ex ricercatore informatico dell'Unità 8200, spiega perché garantire la comunicazione tra agenti è la sfida infrastrutturale trascurata.
