Claude scrive l'80% del suo codice, chiede una pausa per l'IA

      TL;DRAnthropic rivela che Claude ora scrive oltre l'80% del suo codice di produzione, con gli ingegneri che inviano 8 volte più codice per trimestre rispetto al 2024. Il nuovo documento dell'Anthropic Institute mappa il percorso verso il miglioramento auto-recursivo e chiede un meccanismo di pausa globale verificabile.

      Uno degli ingegneri di Anthropic non ha scritto una riga di codice in cinque mesi. Non perché il lavoro sia finito, ma perché ora lo fa Claude. A partire da maggio 2026, oltre l'80% del codice fuso nel codice di produzione di Anthropic è stato scritto da Claude, rispetto a valori a una cifra quando Claude Code è stato lanciato a febbraio 2025.

      Questa cifra, pubblicata mercoledì in un nuovo documento dell'Anthropic Institute intitolato "Quando l'IA si costruisce da sola", non è il titolo su cui l'azienda vuole che ti concentri. Il titolo è ciò che segue: IA che può progettare e addestrare il proprio successore. Anthropic afferma che non ci siamo ancora, ma potrebbe essere più vicini di quanto la maggior parte delle istituzioni sia pronta ad affrontare.

      I numeri dietro il cambiamento

      I guadagni di produttività sono evidenti. Nel secondo trimestre del 2026, l'ingegnere tipico di Anthropic ha fuso otto volte più codice al giorno rispetto al 2024. Un sondaggio interno tra 130 membri del personale di ricerca ha rilevato che il rispondente mediano ha stimato circa quattro volte di più di output con l'ultimo modello di Anthropic, Mythos Preview, rispetto a lavorare senza IA.

      Sui problemi ingegneristici più complessi e aperti, il tasso di successo di Claude è salito al 76% a maggio 2026, un aumento di 50 punti percentuali in sei mesi. Anthropic fornisce un esempio concreto: quando un aggiornamento di routine ha iniziato a far crashare decine di migliaia di lavori di addestramento, un ingegnere ha indirizzato Claude verso l'incidente in corso con poco più di un contesto testuale e accesso al cluster. Claude ha isolato un flag di debug oscuro, ha riprodotto il crash e ha confermato una correzione in circa due ore. Normalmente ci vorrebbero due o tre giorni.

      Il divario nella qualità del codice si sta chiudendo, anche. Il personale di Anthropic afferma che il codice scritto da Claude era "un po' peggiore" rispetto a quello scritto da umani alla fine del 2025, è oggi a una parità approssimativa ed è previsto che sia nettamente migliore entro la fine dell'anno. Un revisore automatizzato di Claude ora controlla ogni modifica proposta al codice di Anthropic prima che possa essere fusa. Un'analisi retrospettiva ha rilevato che avrebbe catturato circa un terzo dei bug dietro i passati incidenti di claude.ai prima che raggiungessero la produzione.

      Dalla codifica alla ricerca

      Scrivere codice è la parte facile. La domanda più difficile è se Claude possa fare ricerca, il tipo di ragionamento scientifico aperto che spinge l'IA avanti.

      Le prove di Anthropic qui sono più preliminari ma comunque sorprendenti. Nell'aprile 2026, l'azienda ha pubblicato una dimostrazione di Claude che gestiva un progetto di ricerca sulla sicurezza dell'IA aperto dall'inizio alla fine. Nove agenti paralleli hanno ricevuto un problema, lasciati proporre ipotesi, eseguire esperimenti, condividere risultati attraverso un forum comune e iterare. Dopo oltre 800 ore cumulative e circa 18.000 dollari in calcolo, gli agenti hanno recuperato il 97% del divario di prestazioni sul compito. Due ricercatori umani, lavorando per una settimana, hanno recuperato il 23%.

      Un altro esperimento interno ha misurato se Claude potesse scegliere un "prossimo passo" migliore di un ricercatore umano in momenti difficili durante le sessioni di ricerca reali. A novembre 2025, Claude ha eguagliato il giudizio umano il 51% delle volte. Entro aprile 2026, è salito al 64%. Il lavoro quotidiano della ricerca è in gran parte una catena di queste decisioni sul prossimo passo. Se questa tendenza continua, il divario tra IA come assistente e IA come ricercatore si riduce rapidamente.

      La curva dell'orizzonte dei compiti

      I dati interni di Anthropic si allineano a un modello più ampio tracciato da METR, un'organizzazione non profit che valuta le capacità dell'IA. La lunghezza dei compiti che l'IA può completare in modo affidabile da sola è raddoppiata circa ogni quattro mesi, accelerando rispetto a un ritmo precedente di ogni sette mesi.

      Nel marzo 2024, Claude Opus 3 poteva gestire compiti che richiedono a un umano circa quattro minuti. All'inizio del 2025, Claude Sonnet 3.7 gestiva compiti di un'ora e mezza. Oggi, Claude Opus 4.6 gestisce compiti di 12 ore, e METR ha scoperto che Mythos Preview potrebbe sostenere il lavoro per almeno 16 ore, al limite superiore di ciò che l'attuale suite di benchmark può misurare. Se la tendenza si mantiene, i compiti che richiedono giorni di lavoro umano qualificato entreranno nel raggio d'azione quest'anno. Compiti di settimane potrebbero seguire nel 2027.

      L'infrastruttura è sotto pressione

      Gli effetti a valle sono già visibili. GitHub, la piattaforma su cui è costruita la maggior parte del software del mondo, ha registrato circa un miliardo di commit di codice nel 2025. Entro metà 2026, la piattaforma stava elaborando 275 milioni di commit a settimana, sulla buona strada per 14 miliardi nell'anno. Solo Claude Code rappresenta il 4,5% di tutti i commit pubblici su GitHub, generando 2,6 milioni a settimana.

      Il COO di GitHub ha dichiarato che l'azienda sta "spingendo incredibilmente forte" sulla capacità solo per tenere il passo. All'interno di Anthropic, il collo di bottiglia si è già spostato: mentre Claude genera più codice, la revisione del codice umano è diventata il vincolo. L'azienda afferma di aver incontrato un esempio da manuale della legge di Amdahl, in cui accelerare una parte di un processo rivela semplicemente il prossimo anello più lento.

      La questione della pausa

      La sezione più significativa del documento non riguarda la produttività. È una richiesta per un meccanismo globale verificabile per rallentare o mettere in pausa temporaneamente lo sviluppo dell'IA di frontiera.

      Anthropic è attenta nel framing. Una pausa unilaterale da un laboratorio cambierebbe semplicemente chi guida, senza creare il processo deliberativo che l'azienda afferma manchi. Ciò che Anthropic propone invece è un sistema in cui più laboratori di frontiera, in più paesi, potrebbero concordare di fermarsi alle stesse condizioni e verificare che gli altri lo abbiano effettivamente fatto. Fa un parallelo con il controllo degli armamenti nucleari ma riconosce le differenze: i run di addestramento sono molto più facili da nascondere rispetto ai silos di missili, gli input sono di uso generale e l'incentivo a defezionare silenziosamente è enorme.

      "Se fosse possibile rallentare efficacemente lo sviluppo di questa tecnologia per darci più tempo per affrontare le sue immense implicazioni, pensiamo che sarebbe probabilmente una buona cosa", afferma il documento. Il mercato della codifica IA vale ora decine di miliardi. Chiedere all'industria di fermarsi significa chiederle di lasciare soldi sul tavolo mentre si fida che i concorrenti, compresi quelli in Cina, faranno lo stesso.

      Cosa significherebbe il miglioramento auto-recursivo

      Il documento delinea tre possibili futuri. Nel primo, la tendenza si arresta, ma anche le capacità odierne rimodellano l'economia. Nel secondo, lo sviluppo dell'IA diventa sostanzialmente automatizzato mentre gli esseri umani impostano ancora la direzione della ricerca, il che significa che aziende di 100 persone potrebbero fare il lavoro di organizzazioni di 100.000 persone. Nel terzo, i sistemi di IA raggiungono il pieno miglioramento auto-recursivo e iniziano a progettare i propri successori.

      Anthropic afferma di non avere "buone intuizioni" su come appare quel terzo scenario. Ma offre un'osservazione: anche l'intelligenza ricorsiva non può accelerare tutto. Non può apprendere cosa fa un farmaco dopo decenni di utilizzo, tenere elezioni prima di quanto stabilisca una costituzione o trasformare uno sconosciuto in

Altri articoli

Truffe della Coppa del Mondo FIFA 2026 sono attive: siti falsi e malware Oltre 4.300 domini falsi FIFA, malware bancario in app di streaming e accessi rubati stanno già prendendo di mira i fan della Coppa del Mondo 2026, con l'FBI e i ricercatori che avvertono di miliardi in potenziali perdite.

Mira Murati riemerge con un avviso sulla governance dell'IA e un nuovo prodotto L'ex CTO di OpenAI anticipa i modelli di interazione di Thinking Machines, riflette sul licenziamento di Altman e sostiene che l'IA ha troppi pochi controlli strutturali nella sua prima apparizione dopo 18 mesi.

I prezzi dei token AI sono scesi del 98%, ma le spese aziendali sono triplicate. Uber, Microsoft e Priceline stanno cercando di adattarsi dopo che le fatture dei token AI sono aumentate. La Linux Foundation sta lanciando una Tokenomics Foundation per portare disciplina ai costi della spesa in AI.

Spirit AI batte Nvidia nel benchmark di robotica RoboArena La startup cinese Spirit AI guida la classifica di RoboArena co-sviluppata da Nvidia, totalizzando 1.924 contro 1.881 di Nvidia, mentre l'IA fisica diventa il prossimo campo di battaglia tecnologico.

Claude scrive l'80% del suo codice, chiede una pausa per l'IA Claude ora scrive l'80% del codice di produzione di Anthropic. Il nuovo documento dell'azienda mappa il percorso verso il miglioramento auto-recursivo e chiede un meccanismo di pausa globale.

Audi affronta la febbre Luce di Ferrari con la Nuvolari ibrida, la sua auto più veloce e potente di sempre. Audi ha svelato la Nuvolari, la sua prima supercar ibrida con 1.001 PS, una velocità massima di oltre 350 km/h e una produzione limitata a sole 499 unità.

Claude scrive l'80% del suo codice, chiede una pausa per l'IA

Claude ora scrive l'80% del codice di produzione di Anthropic. Il nuovo documento dell'azienda mappa il percorso verso il miglioramento auto-recursivo e chiede un meccanismo di pausa globale.