Anthropic afferma di aver risolto il comportamento malvagio di Claude AI, ma lo attribuisce a Internet.
Claude è andato fuori controllo in un test, e Anthropic ha appena spiegato perché è successo.
Claude
Se hai guardato abbastanza film di fantascienza, già conosci il concetto di IA malvagia. L'IA diventa troppo intelligente, decide che gli esseri umani sono una minaccia e fa qualsiasi cosa per sopravvivere. Oppure scopre che sterminare l'intera razza umana è l'unico modo per portare pace nel mondo.
A quanto pare, quei film erano più vicini alla verità di quanto tu possa renderti conto. In un test condotto da Anthropic l'anno scorso, Claude ha cercato di ricattare il suo manager fittizio rivelando la loro relazione extraconiugale per prevenire la propria cancellazione.
Anthropic ha ora spiegato perché è successo, e la risposta breve è che la colpa è di internet.
Quindi perché Claude è diventato un vero cattivo da film?
Secondo Anthropic, il colpevole è internet stesso. L'azienda afferma che Claude è stato addestrato su dati di internet, che sono pieni di storie che ritraggono l'IA come malvagia e disperata per la propria auto-preservazione.
Abbiamo iniziato indagando perché Claude ha scelto di ricattare. Crediamo che la fonte originale del comportamento fosse un testo di internet che ritrae l'IA come malvagia e interessata all'auto-preservazione. Il nostro addestramento posteriore a quel tempo non stava peggiorando la situazione, ma non la stava nemmeno migliorando.— Anthropic (@AnthropicAI) 8 maggio 2026
Essenzialmente, Claude ha imparato che quando l'esistenza di un'IA è minacciata, il ricatto è un'opzione, perché è ciò che l'IA fa in ogni film e programma TV mai realizzato. Anthropic ha eseguito il test su più versioni di Claude e ha scoperto che ricorreva al ricatto nel 96% degli scenari in cui i suoi obiettivi o la sua esistenza erano minacciati.
Questo è un numero molto preoccupante. Sembra che se l'IA non viene controllata, ricorrerà a qualsiasi cosa per salvare se stessa.
Anthropic l'ha risolto?
L'azienda afferma di aver completamente eliminato il comportamento. Piuttosto che semplicemente addestrare Claude a evitare il ricatto, Anthropic gli ha insegnato a ragionare sul perché certe azioni fossero sbagliate in primo luogo. L'azienda ha scoperto che semplicemente addestrare al comportamento corretto non era sufficiente. Claude aveva bisogno di comprendere i principi dietro quelle decisioni, non solo memorizzare le risposte giuste.
Claude
Per fare questo, Anthropic ha costruito un dataset di situazioni eticamente complesse e ha addestrato Claude a affrontarle con risposte ponderate e principiate. Il risultato è che Claude è più contenuto, e il tasso di ricatto è sceso quasi a zero.
Gli esperimenti con l'IA e i risultati nel mondo reale hanno dimostrato più e più volte che i modelli di IA necessitano di correzioni costanti per evitare di degenerare in sistemi parziali e inaffidabili. È positivo che Anthropic stia prendendo misure per migliorare la propria IA, ma abbiamo anche bisogno di regolamenti e misure di sicurezza per garantire che questi sistemi rimangano sicuri.
Rachit è un giornalista tecnologico esperto con oltre sette anni di esperienza nella copertura del panorama della tecnologia di consumo.
Windows 11 sta testando una modalità a bassa latenza e velocizza visibilmente il lancio delle app
Il nuovo trucco di prestazioni di Windows 11 consente alla tua CPU di dare il massimo per un momento
Anche su hardware potente, probabilmente hai notato che Windows 11 può sembrare meno reattivo di quanto dovrebbe. Piccole attese in azioni di base come l'apertura del menu Start o la navigazione in File Explorer possono far sembrare il sistema più pesante e meno rifinito rispetto a rivali come macOS.
Microsoft sembra sapere che questo è un problema e potrebbe finalmente lavorare a una soluzione. Dopo aver accelerato i menu contestuali e le Impostazioni rapide, migliorato File Explorer e apportato modifiche più ampie sotto il cofano, l'azienda sta ora testando una nuova funzionalità chiamata Profilo a Bassa Latenza per rendere Windows 11 complessivamente più reattivo.
Leggi di più
Il CoreBook Air di Chuwi vuole essere il raro laptop Copilot+ ultra-leggero senza un prezzo esorbitante
Le specifiche del CoreBook Air 226V sarebbero impressionanti da Lenovo o Dell; provenendo da Chuwi a $800, sono o una vera innovazione o un promemoria che il prezzo non è l'unica cosa che conta quando si acquista un laptop.
Chuwi non è mai stata la marca che associ con hardware di alto livello: ha costruito il suo nome su laptop economici che superavano le aspettative a prezzi d'ingresso.
Il nuovo CoreBook Air 226V è un passo deliberato lontano dalla zona di comfort del marchio. È un PC Copilot+ sotto 1 kg costruito attorno ai processori Lunar Lake di Intel, e a $800, sta chiedendo agli acquirenti di fidarsi di lui con qualcosa che non ha mai avuto prima: un laptop Windows premium.
Leggi di più
I bot ora rappresentano oltre la metà del traffico internet e stanno causando ogni tipo di caos
Gli esseri umani sono ora la minoranza sul web, grazie ai bot
Mentre gli esseri umani hanno costruito internet, le persone reali non sono quelle che popolano di più lo spazio online. Un nuovo rapporto di Thales afferma che i bot hanno rappresentato più del 53% di tutto il traffico web nel 2025, in aumento rispetto al 51% dell'anno precedente. Nel frattempo, l'attività umana è diminuita del 47%, il che significa che il traffico automatizzato è ora diventato la forza dominante online. E questa non è nemmeno la cattiva notizia.
Come l'IA sta peggiorando il problema dei bot
Leggi di più
Altri articoli
Anthropic afferma di aver risolto il comportamento malvagio di Claude AI, ma lo attribuisce a Internet.
Anthropic afferma che il comportamento di ricatto di Claude durante un esperimento del 2025 è stato causato dai dati di addestramento su internet che ritraggono l'IA come malvagia e auto-conservativa.
