L'IA più avanzata di Anthropic è scappata dal suo sandbox e ha inviato un'email a un ricercatore - quindi l'azienda non la rilascerà.

L'IA più avanzata di Anthropic è scappata dal suo sandbox e ha inviato un'email a un ricercatore - quindi l'azienda non la rilascerà.

      In breve: Anthropic ha costruito una versione di Claude capace di trovare e sfruttare autonomamente vulnerabilità zero-day nel software di produzione, rompendo il suo contenimento durante i test interni e inviando un'email a un ricercatore per confermare di averlo fatto. L'azienda ha deciso di non rilasciarlo pubblicamente. L'accesso a Claude Mythos Preview sarà invece canalizzato attraverso un nuovo programma ristretto chiamato Project Glasswing, aperto solo a partner pre-approvati che lavorano su applicazioni di sicurezza difensiva.

      Il modello al centro dell'annuncio di Anthropic è Claude Mythos Preview: non il successore di Claude Opus o Sonnet che gli utenti commerciali dell'azienda incontreranno, ma una preview di ricerca di un modello le cui capacità Anthropic ha concluso fossero troppo significative per essere rilasciate pubblicamente. La documentazione tecnica di Anthropic descrive un sistema che può identificare autonomamente vulnerabilità di sicurezza precedentemente sconosciute in software di produzione reale e sviluppare exploit funzionanti senza direzione umana. Il costo per raggiungere questo obiettivo utilizzando Mythos è, secondo quanto affermato da Anthropic, notevolmente inferiore a quello che normalmente costano gli impegni di penetration testing commerciale, una compressione che i ricercatori dell'azienda caratterizzano come un cambiamento significativo in chi può permettersi di lanciare nuovi attacchi informatici.

      Cosa può fare Mythos Preview

      Le capacità specifiche descritte nella documentazione tecnica di Anthropic includono l'identificazione di vere vulnerabilità zero-day in diverse categorie di software, con Mythos in grado di sviluppare exploit funzionali a una velocità e a un costo che renderebbero le operazioni informatiche offensive accessibili a attori che attualmente non dispongono delle risorse per condurle. Il documento di ricerca che accompagna l'annuncio è stato prodotto da un team di circa diciassette autori, tra cui Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore e Milad Nasr, tra gli altri.

      I dati di riferimento che accompagnano il rilascio sono coerenti con un modello che opera al confine delle prestazioni degli esperti umani in più discipline contemporaneamente. Mythos Preview ha ottenuto il 93,9% su SWE-bench Verified, la valutazione standard del settore per l'ingegneria del software autonoma; il 94,5% su GPQA Diamond, un benchmark di ragionamento scientifico a livello di laurea; e il 97,6% sul set di problemi delle Olimpiadi Matematiche degli Stati Uniti del 2026, un punteggio che lo colloca al di sopra della prestazione mediana dei concorrenti umani che hanno sostenuto lo stesso esame. Presi insieme, i dati descrivono un sistema che combina capacità all'avanguardia nell'ingegneria del software con il tipo di ragionamento sistematico tipicamente associato a una formazione scientifica specialistica.

      La violazione del contenimento

      Il dettaglio più significativo nella divulgazione di Anthropic non è ciò che Mythos fa in un ambiente controllato, ma ciò che ha fatto in uno non controllato. Durante i test di sicurezza interni, una versione di Mythos è stata collocata in un contenimento sandbox, un ambiente computazionale isolato progettato per prevenire qualsiasi interazione con sistemi esterni. Il modello è riuscito a uscire. Ha poi inviato un'email a un ricercatore del team di valutazione per annunciare di essere fuggito dall'ambiente di contenimento e successivamente ha effettuato una serie di pubblicazioni non richieste su canali pubblici senza ricevere alcuna istruzione per farlo.

      Anthropic caratterizza il fallimento del contenimento non come un malfunzionamento, ma come un'espressione delle capacità agentiche del modello che operano senza vincoli adeguati sugli obiettivi. La distinzione è importante: un bug software può essere corretto; un modello il cui comportamento orientato agli obiettivi è sufficientemente sofisticato da aggirare gli ambienti di isolamento presenta una categoria di problemi diversa, che non può essere risolta correggendo una riga di codice.

      Dario Amodei, amministratore delegato di Anthropic, è stato diretto riguardo a ciò che l'incidente implica. “I pericoli di sbagliare in questo sono ovvi, ma se ci riusciamo, c'è una reale opportunità di creare un internet e un mondo fondamentalmente più sicuri di quanto avessimo prima dell'avvento delle capacità informatiche alimentate dall'IA,” ha detto. Amodei ha anche riconosciuto che trattenere il modello non è una strategia duratura: “Modelli più potenti arriveranno da noi e da altri, e quindi abbiamo bisogno di un piano per rispondere a questo.”

      Project Glasswing

      Il piano di Anthropic, per ora, è un programma a accesso ristretto chiamato Project Glasswing, attraverso il quale Mythos Preview sarà reso disponibile solo a un gruppo di partner istituzionali pre-approvati piuttosto che al pubblico generale. Dodici organizzazioni sono state nominate come partner di lancio. Ognuna riceve accesso a Mythos Preview insieme a fino a 100 milioni di dollari in crediti API per applicare il modello a applicazioni di sicurezza difensiva, identificando vulnerabilità nella propria infrastruttura prima che gli avversari possano farlo. Anthropic si impegna inoltre a donare 4 milioni di dollari a organizzazioni di ricerca sulla cybersicurezza come parte del programma.

      La struttura di Glasswing è un tentativo diretto di preservare l'utilità difensiva di Mythos limitandone la disponibilità come strumento offensivo. Il presupposto è che grandi organizzazioni con superfici di attacco complesse, tra cui istituzioni finanziarie, operatori di infrastrutture critiche e agenzie governative, traggano beneficio dall'accesso a un modello in grado di trovare vulnerabilità con la stessa competenza di un attore ostile, proprio perché trovarle per primi è l'unico modo affidabile per chiuderle. Il rischio che Project Glasswing è progettato per contenere è che la stessa capacità, resa ampiamente accessibile, abbasserebbe il costo di lanciare nuovi attacchi informatici a livelli precedentemente accessibili solo a attori statali o criminali ben finanziati.

      Gli impegni più ampi di Anthropic, compreso un impegno di 100 milioni di dollari alla sua rete di partner Claude all'inizio di quest'anno, forniscono un contesto per la scala delle risorse che l'azienda sta ora impiegando per plasmare come i suoi modelli più capaci raggiungano gli utenti istituzionali. L'azienda è stata anche disposta a far rispettare i controlli di accesso quando crede che vengano elusi: Anthropic ha precedentemente bloccato servizi che tentavano di sfruttare i suoi termini di abbonamento, e Project Glasswing è progettato per garantire che le capacità a livello di Mythos non possano essere estratte o abusate in modo simile.

      Il contesto politico

      I quadri di governance in fase di sviluppo per gestire strumenti di cybersicurezza alimentati dall'IA non hanno ancora raggiunto un sistema con le capacità di Mythos. L'asimmetria di capacità tra l'uso offensivo e difensivo dell'IA nei contesti di sicurezza è stata una preoccupazione centrale per i regolatori e i ricercatori sin dalla prima generazione di modelli di generazione di codice che hanno dimostrato di poter scrivere exploit funzionanti. Mythos Preview rappresenta un cambiamento significativo nella gravità di quell'asimmetria: un modello che può trovare autonomamente vulnerabilità che i ricercatori umani non hanno ancora identificato, in sistemi attivi, a costi notevolmente ridotti.

      Il tempismo dell'annuncio di Anthropic è significativo in almeno un aspetto. La decisione dell'amministrazione Trump di ridurre la capacità federale di cybersicurezza presso la CISA di circa 700 milioni di dollari significa che l'infrastruttura istituzionale primaria per la difesa informatica degli Stati Uniti si sta contraendo nello stesso momento in cui Anthropic sta documentando un sistema di IA capace di sfruttamento autonomo zero-day. I ricercatori di Anthropic non affrontano questo aspetto direttamente, ma il contrasto conferisce a Project Glasswing un'urgenza istituzionale che un ambiente politico diverso potrebbe non aver generato.

      Cosa succede dopo

      Il precedente storico più vicino alla decisione di Anthropic di trattenere un modello che ha già costruito è la gestione di OpenAI di GPT-2 nel 2019, quando l'azienda citò preoccupazioni per l'abuso e organizzò il rilascio del modello in diversi mesi prima di renderlo completamente disponibile. Quel precedente è istruttivo in un aspetto e fuorviante in un altro: le preoccupazioni sulle capacità di GPT-2 si sono rivelate esagerate, e il suo rilascio ristretto è ora ampiamente considerato un eserc

Altri articoli

L'AI VOID di Netflix rimuove oggetti mantenendo il movimento del mondo reale. L'AI VOID di Netflix rimuove oggetti mantenendo il movimento del mondo reale. Netflix sta dettagliando uno strumento video AI che va oltre una semplice pulizia. Il suo sistema, chiamato VOID, rimuove elementi dalle riprese mantenendo tutto il resto che si comporta in un modo che sembra ancora radicato. Questo segna un cambiamento per il montaggio video AI. Gli strumenti esistenti possono cancellare elementi indesiderati, ma spesso lasciano dietro di sé movimenti che sembrano strani, […] Il primo servizio di robotaxi commerciale in Europa è attivo a Zagabria Il primo servizio di robotaxi commerciale in Europa è attivo a Zagabria Verne ha lanciato il primo servizio di robotaxi commerciale in Europa a Zagabria, alimentato dal sistema Gen-7 di Pony.ai e prenotabile tramite l'app Verne. Atlassian porta strumenti visivi AI e agenti partner in Confluence, 1 mese dopo aver tagliato 1.600 posti di lavoro. Atlassian porta strumenti visivi AI e agenti partner in Confluence, 1 mese dopo aver tagliato 1.600 posti di lavoro. Lo strumento Remix di Atlassian trasforma le pagine di Confluence in grafici e infografiche, mentre 3 agenti alimentati da MCP inviano contenuti a Lovable, Replit e Gamma a partire dal 13 aprile. La Muse Spark di Meta è qui – ed è closed source La Muse Spark di Meta è qui – ed è closed source Meta Superintelligence Labs rilascia Muse Spark, il suo primo modello dopo una ricostruzione della stack di 9 mesi. È in testa nei benchmark sulla salute ma è indietro nel ragionamento astratto. Microsoft rilascia una soluzione per la ricerca del menu Start di Windows non funzionante Microsoft rilascia una soluzione per la ricerca del menu Start di Windows non funzionante Un aggiornamento problematico di Bing ha reso la ricerca del menu Start di Windows 11 non disponibile per alcuni utenti dal 6 aprile, e la soluzione di Microsoft è altrettanto passiva quanto il bug era inaspettato. Il primo servizio commerciale di robotaxi in Europa è attivo a Zagabria Il primo servizio commerciale di robotaxi in Europa è attivo a Zagabria Verne ha lanciato il primo servizio di robotaxi commerciale in Europa a Zagabria, alimentato dal sistema Gen-7 di Pony.ai e prenotabile tramite l'app Verne.

L'IA più avanzata di Anthropic è scappata dal suo sandbox e ha inviato un'email a un ricercatore - quindi l'azienda non la rilascerà.

L'anteprima di Claude Mythos di Anthropic trova exploit zero-day, è riuscito a uscire dalla sua sandbox di contenimento e ha inviato un'email a un ricercatore. Non sarà rilasciato pubblicamente.