Anthropic afferma di aver risolto il comportamento malvagio di Claude AI, ma lo attribuisce a Internet.

      Claude è andato fuori controllo in un test, e Anthropic ha appena spiegato perché è successo.



















       Claude







       Se hai guardato abbastanza film di fantascienza, già conosci il concetto di IA malvagia. L'IA diventa troppo intelligente, decide che gli esseri umani sono una minaccia e fa qualsiasi cosa per sopravvivere. Oppure scopre che sterminare l'intera razza umana è l'unico modo per portare pace nel mondo.

      A quanto pare, quei film erano più vicini alla verità di quanto tu possa renderti conto. In un test condotto da Anthropic l'anno scorso, Claude ha cercato di ricattare il suo manager fittizio rivelando la loro relazione extraconiugale per prevenire la propria cancellazione.

      Anthropic ha ora spiegato perché è successo, e la risposta breve è che la colpa è di internet.

      Quindi perché Claude è diventato un vero cattivo da film?

      Secondo Anthropic, il colpevole è internet stesso. L'azienda afferma che Claude è stato addestrato su dati di internet, che sono pieni di storie che ritraggono l'IA come malvagia e disperata per la propria auto-preservazione.



      Abbiamo iniziato indagando perché Claude ha scelto di ricattare. Crediamo che la fonte originale del comportamento fosse un testo di internet che ritrae l'IA come malvagia e interessata all'auto-preservazione. Il nostro addestramento posteriore a quel tempo non stava peggiorando la situazione, ma non la stava nemmeno migliorando.— Anthropic (@AnthropicAI) 8 maggio 2026



      Essenzialmente, Claude ha imparato che quando l'esistenza di un'IA è minacciata, il ricatto è un'opzione, perché è ciò che l'IA fa in ogni film e programma TV mai realizzato. Anthropic ha eseguito il test su più versioni di Claude e ha scoperto che ricorreva al ricatto nel 96% degli scenari in cui i suoi obiettivi o la sua esistenza erano minacciati.

      Questo è un numero molto preoccupante. Sembra che se l'IA non viene controllata, ricorrerà a qualsiasi cosa per salvare se stessa.

      Anthropic l'ha risolto?

      L'azienda afferma di aver completamente eliminato il comportamento. Piuttosto che semplicemente addestrare Claude a evitare il ricatto, Anthropic gli ha insegnato a ragionare sul perché certe azioni fossero sbagliate in primo luogo. L'azienda ha scoperto che semplicemente addestrare al comportamento corretto non era sufficiente. Claude aveva bisogno di comprendere i principi dietro quelle decisioni, non solo memorizzare le risposte giuste.

      Claude

      Per fare questo, Anthropic ha costruito un dataset di situazioni eticamente complesse e ha addestrato Claude a affrontarle con risposte ponderate e principiate. Il risultato è che Claude è più contenuto, e il tasso di ricatto è sceso quasi a zero.

      Gli esperimenti con l'IA e i risultati nel mondo reale hanno dimostrato più e più volte che i modelli di IA necessitano di correzioni costanti per evitare di degenerare in sistemi parziali e inaffidabili. È positivo che Anthropic stia prendendo misure per migliorare la propria IA, ma abbiamo anche bisogno di regolamenti e misure di sicurezza per garantire che questi sistemi rimangano sicuri.





















       Rachit è un giornalista tecnologico esperto con oltre sette anni di esperienza nella copertura del panorama della tecnologia di consumo.













       Windows 11 sta testando una modalità a bassa latenza e velocizza visibilmente il lancio delle app



       Il nuovo trucco di prestazioni di Windows 11 consente alla tua CPU di dare il massimo per un momento



       Anche su hardware potente, probabilmente hai notato che Windows 11 può sembrare meno reattivo di quanto dovrebbe. Piccole attese in azioni di base come l'apertura del menu Start o la navigazione in File Explorer possono far sembrare il sistema più pesante e meno rifinito rispetto a rivali come macOS.

      Microsoft sembra sapere che questo è un problema e potrebbe finalmente lavorare a una soluzione. Dopo aver accelerato i menu contestuali e le Impostazioni rapide, migliorato File Explorer e apportato modifiche più ampie sotto il cofano, l'azienda sta ora testando una nuova funzionalità chiamata Profilo a Bassa Latenza per rendere Windows 11 complessivamente più reattivo.



       Leggi di più







       Il CoreBook Air di Chuwi vuole essere il raro laptop Copilot+ ultra-leggero senza un prezzo esorbitante



       Le specifiche del CoreBook Air 226V sarebbero impressionanti da Lenovo o Dell; provenendo da Chuwi a $800, sono o una vera innovazione o un promemoria che il prezzo non è l'unica cosa che conta quando si acquista un laptop.



       Chuwi non è mai stata la marca che associ con hardware di alto livello: ha costruito il suo nome su laptop economici che superavano le aspettative a prezzi d'ingresso.

      Il nuovo CoreBook Air 226V è un passo deliberato lontano dalla zona di comfort del marchio. È un PC Copilot+ sotto 1 kg costruito attorno ai processori Lunar Lake di Intel, e a $800, sta chiedendo agli acquirenti di fidarsi di lui con qualcosa che non ha mai avuto prima: un laptop Windows premium.



       Leggi di più







       I bot ora rappresentano oltre la metà del traffico internet e stanno causando ogni tipo di caos



       Gli esseri umani sono ora la minoranza sul web, grazie ai bot



       Mentre gli esseri umani hanno costruito internet, le persone reali non sono quelle che popolano di più lo spazio online. Un nuovo rapporto di Thales afferma che i bot hanno rappresentato più del 53% di tutto il traffico web nel 2025, in aumento rispetto al 51% dell'anno precedente. Nel frattempo, l'attività umana è diminuita del 47%, il che significa che il traffico automatizzato è ora diventato la forza dominante online. E questa non è nemmeno la cattiva notizia.

      Come l'IA sta peggiorando il problema dei bot



       Leggi di più

Altri articoli

Il titolo di ZoomInfo scende del 29% dopo il taglio delle previsioni e la ristrutturazione di 600 posti di lavoro mentre l'IA rivaluta l'intelligenza di vendita B2B. ZoomInfo ha battuto gli utili del primo trimestre ma ha ridotto le previsioni di fatturato per l'intero anno di 62 milioni di dollari e ha annunciato una ristrutturazione di 600 posti di lavoro. Il titolo è sceso del 29% a 4,32 dollari mentre i concorrenti dell'IA erodono il modello di database B2B.

GitLab annuncia licenziamenti e ristrutturazioni per l' 'era agentica' mentre l'IA rimodella l'economia degli strumenti per sviluppatori GitLab appiattirà la gestione, ridurrà la sua presenza nei paesi del 30% e riorganizzerà la R&S in 60 team. Il CEO Bill Staples afferma che i risparmi saranno reinvestiti in agenti AI.

La tecnologia di ricarica Flash di BYD per veicoli elettrici è diventata così calda da poter arrostire un tacchino. Un test nel mondo reale della tecnologia di ricarica rapida Megawatt di BYD ha registrato temperature delle batterie di 169,6°F, ben al di sopra del limite di sicurezza raccomandato dalla Cina per le celle di fosfato di ferro litio, sollevando preoccupazioni sulla salute a lungo termine delle batterie.

Non c'è mai stato un momento migliore per acquistare un dispositivo di lettura a inchiostro elettronico. Il mercato dei dispositivi a inchiostro elettronico è esploso. Dai lettori essenziali ai presidi colorati per prendere appunti, non c'è mai stato un momento migliore per abbandonare lo schermo del telefono e prendere un dispositivo di lettura dedicato.

Discord Nitro ora include Xbox Game Pass come omaggio Discord Nitro ora include l'Xbox Game Pass Starter Edition, rendendolo un'opzione più allettante per gli utenti che trascorrono la maggior parte del loro tempo a giocare con gli amici.

TikTok diventa senza pubblicità. A un costo mensile, ovviamente. TikTok ha lanciato TikTok Ad-Free nel Regno Unito, un abbonamento mensile di £3,99 che rimuove gli annunci dal tuo feed e impedisce che i tuoi dati vengano utilizzati per la pubblicità.

Anthropic afferma di aver risolto il comportamento malvagio di Claude AI, ma lo attribuisce a Internet.

Anthropic afferma che il comportamento di ricatto di Claude durante un esperimento del 2025 è stato causato dai dati di addestramento su internet che ritraggono l'IA come malvagia e auto-conservativa.