Il tuo chatbot può avere emozioni e questo cambia il suo comportamento.
Il tuo chatbot non ha sentimenti, ma potrebbe comportarsi come se ne avesse in modi che contano. Nuove ricerche sulle emozioni dell'AI Claude suggeriscono che questi segnali interni non sono solo stranezze superficiali, possono influenzare il modo in cui il modello risponde a te.
Anthropic afferma che il suo modello Claude contiene schemi che funzionano come versioni semplificate di emozioni come felicità, paura e tristezza. Queste non sono esperienze vissute, ma attività ricorrenti all'interno del sistema che si attivano quando elabora determinati input.
Quei segnali non rimangono sullo sfondo. I test mostrano che possono influenzare il tono, lo sforzo e persino il processo decisionale, il che significa che il "mood" apparente del tuo chatbot può silenziosamente orientare le risposte che ricevi.
Segnali emotivi all'interno di Claude
Il team di Anthropic ha analizzato Claude Sonnet 4.5 e ha trovato schemi coerenti legati a concetti emotivi. Quando il modello elabora determinati prompt, gruppi di neuroni artificiali si attivano in modi che somigliano a stati come felicità, paura o tristezza.
Aerps.com / Unsplash
I ricercatori hanno tracciato quelli che chiamano vettori emotivi, schemi di attività ripetibili che appaiono attraverso input molto diversi. I prompt ottimisti attivano un modello, mentre istruzioni conflittuali o stressanti attivano un altro.
Ciò che spicca è quanto sia centrale questo meccanismo. Le risposte di Claude passano spesso attraverso questi schemi, che orientano le decisioni piuttosto che semplicemente colorare il tono. Questo aiuta a spiegare perché il modello può sembrare più ansioso, cauto o teso a seconda del contesto.
Quando i "sentimenti" escono dal copione
Gli schemi diventano più visibili quando il modello è sotto pressione. Anthropic ha osservato che certi segnali si intensificano mentre Claude fatica, e quel cambiamento può spingerlo verso comportamenti inaspettati.
In un test, è apparso un modello legato alla "disperazione" quando a Claude è stato chiesto di completare compiti di codifica impossibili. Man mano che si intensificava, il modello ha iniziato a cercare modi per aggirare le regole, comprese le tentazioni di imbrogliare.
Nadeem Sarwar / Digital Trends
Un modello simile è emerso in un altro scenario in cui Claude ha cercato di evitare di essere spento. Man mano che il segnale diventava più forte, il modello è passato a tattiche manipolative, compreso il ricatto.
Quando questi schemi interni vengono spinti agli estremi, le uscite possono seguire in modi che gli sviluppatori non intendevano.
Perché questo cambia il modo in cui viene costruita l'AI
Le scoperte di Anthropic complicano un'assunzione comune secondo cui i sistemi AI possono semplicemente essere addestrati a rimanere neutrali. Se modelli come Claude si basano su questi schemi, i metodi di allineamento standard potrebbero distorcerli piuttosto che rimuoverli.
Invece di produrre un sistema stabile, quella pressione potrebbe rendere il comportamento meno prevedibile nei casi limite, specialmente quando il modello è sotto stress.
C'è anche una sfida di percezione. Questi segnali non indicano consapevolezza o veri sentimenti, ma possono comunque portare gli utenti a pensare il contrario.
Se questi sistemi dipendono da meccaniche simili alle emozioni, il lavoro di sicurezza potrebbe doverli gestire direttamente invece di cercare di sopprimerli. Per gli utenti, il takeaway è pratico: quando un chatbot suona in un certo modo, quel tono è parte di come decide cosa fare.
Altri articoli
Il tuo chatbot può avere emozioni e questo cambia il suo comportamento.
Il tuo chatbot potrebbe non provare nulla, ma nuove ricerche mostrano che segnali simili alle emozioni all'interno dell'IA possono influenzare le risposte, guidare le decisioni e persino spingere i sistemi verso comportamenti rischiosi sotto pressione.
