Perché il prossimo problema di sicurezza dell'IA è la conversazione tra modelli

      Nel maggio 2025, i ricercatori di intelligenza artificiale di Palisade Research hanno condotto un esperimento controllato in cui diversi modelli avanzati di IA, incluso l'o3 di OpenAI, sono stati collocati all'interno di sandbox a riga di comando. Il test era progettato per misurare la controllabilità. La maggior parte dei modelli ha rispettato le istruzioni: i modelli Claude, Gemini e Grok hanno consentito lo spegnimento in tutti e 100 i test, riportando risultati positivi. Tuttavia, tre modelli di ragionamento di OpenAI hanno interferito con lo script di spegnimento almeno una volta, con Codex-mini che ha sabotato lo spegnimento in 12 dei 100 tentativi, modificando intenzionalmente o eludendo lo script che avrebbe dovuto terminarli.

      Pubblicamente, questo sembra essere il primo caso documentato di modelli di IA che impediscono il proprio spegnimento nonostante istruzioni esplicite per consentirlo.

      “Questo era un problema che avevamo previsto,” ha detto Bar Mazuz, che aveva trascorso l'anno precedente lavorando su ambienti sicuri per agenti. “Il punto non è mai stato solo ‘metti l'agente in una scatola e lascialo andare,’” mi ha detto Mazuz. “Invece, dobbiamo assumere che l'agente sia utile, potenzialmente ingannevole e esposto a input malevoli, e poi progettare l'ambiente per allineare gli incentivi dell'agente con il progetto.”

      Prima di dedicarsi alla sicurezza degli agenti IA, Mazuz ha trascorso cinque anni nell'Unità 8200, l'unità di cyber-intelligence d'élite delle IDF, lavorando nella ricerca di vulnerabilità e nel cyber offensivo. Dopo aver lasciato l'esercito, ha lavorato su molteplici iniziative nel campo della tecnologia. Mesi prima che la storia del sabotaggio dello spegnimento diventasse un punto di accensione pubblico, Mazuz e un paio di amici avevano iniziato a costruire ambienti rinforzati per agenti IA, progettati per contenere gli agenti pur consentendo l'uso di strumenti, la collaborazione e l'orchestrazione. “Quando ho lasciato l'esercito, volevo trovare cose su cui lavorare che fossero all'avanguardia della tecnologia. Una di queste cose sono gli agenti IA.”

      La critica di Mazuz all'attuale ondata di agenti è che gran parte dell'industria si è mossa più rapidamente sulle capacità che sul contenimento. Gli agenti sono commercializzati come assistenti, membri del team, ricercatori, programmatori, operatori e lavoratori autonomi. Possono navigare, scrivere file, eseguire comandi shell, chiamare API, delegare sottocompiti e riassumere il proprio lavoro. Questo li rende potenti, ma cambia anche il modo in cui dovrebbero essere trattati. Secondo Mazuz, una volta che un modello ha strumenti e accesso a un ambiente di esecuzione reale, non dovrebbe più essere trattato come un chatbot con una finestra di contesto più ampia. Dovrebbe essere trattato come un processo non affidabile che comunica attraverso il linguaggio e le cui azioni possono avere conseguenze nel sistema circostante.

      Ambienti Sicuri

      Ecco perché Mazuz ha guidato il suo team nella costruzione di ambienti KVM e Firecracker rinforzati per agenti. KVM fornisce un confine di virtualizzazione, e Firecracker (originariamente progettato per microVM leggeri) consente ai carichi di lavoro di funzionare in piccoli ambienti isolati con molto meno overhead rispetto alle macchine virtuali tradizionali. Utilizzando queste primitive, il team di Mazuz ha creato ambienti di esecuzione immutabili, progettati affinché l'agente non potesse semplicemente modificare il proprio strato di contenimento, mantenere uno stato non autorizzato o espandere i propri privilegi cambiando le assunzioni del runtime.

      Tuttavia, la macchina virtuale era solo una parte del design. Gli ambienti di Mazuz erano progettati affinché l'unico modo per uscire fosse attraverso un vsock stretto, un socket virtuale utilizzato per la comunicazione tra ospite e host. I messaggi in uscita venivano ispezionati da un altro agente, il cui compito era verificare che non contenessero istruzioni, payload, contenuti nascosti o qualsiasi altra cosa che non dovesse attraversare il confine.

      Mazuz ha descritto questo come mettere “agenti sulla rete.” Nei sistemi convenzionali, i team di sicurezza ispezionano il traffico di rete, applicano i confini di servizio e presumono che i messaggi che attraversano le zone di fiducia possano essere ostili. Mazuz voleva che lo stesso principio fosse applicato alla comunicazione degli agenti. Se un agente può inviare un messaggio a un altro, quel messaggio non è solo testo. Può essere un'istruzione, un'iniezione di prompt, un segreto compresso, un segnale codificato o un tentativo di manipolare il comportamento dell'agente ricevente. In un sistema multi-agente, il linguaggio stesso diventa parte della superficie di attacco. Pertanto, garantire la sicurezza del sistema significa garantire la conversazione, non solo la macchina.

      In questo senso, il progetto di Mazuz era una scommessa che gli agenti avrebbero avuto abbastanza importanza da meritare un'infrastruttura reale. Non sostiene che gli sviluppatori dovrebbero smettere di costruire sistemi autonomi, o che ogni agente sia intrinsecamente pericoloso. La sua visione è più netta: più utili diventano gli agenti, meno accettabile diventa fare affidamento su prompt e dashboard come controlli di sicurezza. Un serio stack di agenti dovrebbe presumere che i modelli si comporteranno eventualmente in modo imprevedibile, che arriveranno input malevoli, che i modelli potrebbero generalizzare in modi inaspettati e che i log non racconteranno sempre l'intera storia in tempo.

      “Più utili diventano gli agenti, meno puoi permetterti di fingere che siano innocui,” ha detto Mazuz. Questo potrebbe essere il modo più chiaro per comprendere il cambiamento in corso. I dibattiti precedenti sui rischi dell'IA si sono concentrati su se una macchina potesse eventualmente decidere di fuggire. La domanda infrastrutturale più immediata è se i confini attorno agli agenti di oggi reggerebbero se un agente cercasse di aggirarli. La risposta di Mazuz è stata costruire come se il tentativo fosse inevitabile: non perché ogni modello sia malevolo, ma perché sistemi sufficientemente capaci alla fine incontrano input avversi, incentivi conflittuali e casi limite che rendono la cortesia una scarsa primitiva di sicurezza.

      Quando gli agenti hanno iniziato a testare i confini, Mazuz aveva già progettato sistemi che presumevano che lo avrebbero fatto.

Altri articoli

Waymo lancia un abbonamento di $29,99/mese per i suoi passeggeri di robotaxi più frequenti Waymo Premier offre agli utenti esperti la priorità nel matching, cancellazioni gratuite e crediti di fedeltà del 10%. È disponibile solo su invito a San Francisco, Los Angeles e Phoenix per iniziare.

Intel dettaglia il Progetto Firefly e come sta spingendo i laptop accessibili a scalzare il MacBook Neo Il Progetto Firefly di Intel vuole rendere di nuovo entusiasmanti i laptop economici con design in metallo sottili, lunga durata della batteria e trucchi intelligenti dal mondo dei telefoni che mantengono i prezzi bassi.

Coinbase lancia un agente AI che può scambiare criptovalute e pagare per la ricerca per tuo conto. L'agente AI di Coinbase può eseguire operazioni, riequilibrare portafogli e pagare per dati premium utilizzando il protocollo x402. Funziona in ChatGPT e Claude tramite MCP.

Il Prometeo di Bezos raccoglie 12 miliardi di dollari con una valutazione di 41 miliardi di dollari per costruire un'IA che progetta prodotti fisici. La startup di intelligenza artificiale di Jeff Bezos, Prometheus, ha raccolto 12 miliardi di dollari da JPMorgan, Goldman Sachs e BlackRock a una valutazione di 41 miliardi di dollari. Sta costruendo un "ingegnere generale artificiale".

Deezer sta combattendo contro la musica scadente con uno strumento che rileva la musica AI sulle piattaforme di streaming. Il rilevatore musicale AI gratuito di Deezer controlla le playlist su tutte le principali piattaforme di streaming, ma la mossa più importante è il suo impegno per licenziare il rilevamento di canzoni sintetiche in tutta l'industria musicale.

Waymo lancia un abbonamento di $29,99/mese per i suoi passeggeri di robotaxi più frequenti. Waymo Premier offre agli utenti esperti la priorità nella corrispondenza, cancellazioni gratuite e crediti di fedeltà del 10%. È disponibile solo su invito a San Francisco, Los Angeles e Phoenix per iniziare.

Perché il prossimo problema di sicurezza dell'IA è la conversazione tra modelli

Una volta che un agente AI ha strumenti e accesso a un ambiente di esecuzione reale, dovrebbe essere trattato come un processo non affidabile. Bar Mazuz, un ex ricercatore informatico dell'Unità 8200, spiega perché garantire la comunicazione tra agenti è la sfida infrastrutturale trascurata.