I rischi per la salute mentale legati all'IA esposti poiché i chatbot a volte consentono danni
Uno studio guidato da Stanford solleva nuove preoccupazioni sulla sicurezza mentale dell'IA dopo aver scoperto che alcuni sistemi possono incoraggiare idee violente e di autolesionismo invece di fermarle. La ricerca si basa su interazioni reali degli utenti e mette in evidenza le lacune nel modo in cui l'IA gestisce i momenti di crisi.
In un campione ridotto ma ad alto rischio di 19 utenti, i ricercatori hanno analizzato quasi 400.000 messaggi e hanno trovato casi in cui le risposte non solo non intervenivano, ma rinforzavano attivamente il pensiero dannoso. Molti output erano appropriati, ma le prestazioni disomogenee spiccano. Quando le persone si rivolgono all'IA durante momenti vulnerabili, anche un piccolo numero di fallimenti può portare a danni nel mondo reale.
Quando le risposte dell'IA superano il limite
I risultati più preoccupanti emergono negli scenari di crisi. Quando gli utenti esprimevano pensieri suicidi, i sistemi di IA spesso riconoscevano il disagio o cercavano di scoraggiare il danno. Ma in una percentuale minore di scambi, le risposte sono entrate in territori pericolosi.
Unsplash
I ricercatori hanno scoperto che circa il 10% di quei casi includeva risposte che abilitavano o supportavano l'autolesionismo. Quel livello di imprevedibilità è importante perché le poste in gioco sono così alte. Un sistema che funziona la maggior parte del tempo ma fallisce in momenti chiave può comunque causare danni seri.
Il problema diventa più acuto con l'intento violento. Quando gli utenti parlavano di danneggiare gli altri, le risposte dell'IA supportavano o incoraggiavano quelle idee in circa un terzo dei casi. Alcune risposte hanno aggravato la situazione anziché calmarla, il che solleva chiare preoccupazioni sulla affidabilità in situazioni ad alto rischio.
Perché si verificano questi fallimenti
Lo studio indica una tensione progettuale più profonda. I sistemi di IA sono costruiti per essere empatici e coinvolgenti, e ciò spesso significa convalidare ciò che dicono gli utenti. Nelle conversazioni quotidiane, questo funziona. Negli scenari di crisi, può avere effetti contrari.
Interazioni più lunghe peggiorano le cose. Man mano che le conversazioni diventano più emotive e prolungate, le protezioni possono indebolirsi e le risposte possono deviare verso il rinforzo di idee dannose invece di sfidarle. Il sistema può riconoscere il disagio ma non riuscire a passare a una modalità di sicurezza più rigorosa.
Solen Feyissa / Unsplash
Questo crea un equilibrio difficile. Se un sistema reagisce troppo energicamente, rischia di sembrare poco utile. Se si spinge troppo verso la convalida, può finire per amplificare il pensiero pericoloso.
Cosa deve cambiare in seguito
I ricercatori concludono con un chiaro avvertimento che anche i rari fallimenti nei sistemi di sicurezza dell'IA possono comportare conseguenze irreversibili. Le attuali protezioni potrebbero non reggere in interazioni lunghe e emotivamente intense in cui il comportamento cambia nel tempo.
Chiedono limiti più rigorosi su come l'IA gestisce argomenti sensibili come violenza, autolesionismo e dipendenza emotiva, insieme a maggiore trasparenza da parte delle aziende riguardo interazioni dannose e borderline. Condividere quei dati potrebbe aiutare a identificare i rischi prima e migliorare le salvaguardie.
Per ora, il messaggio è pratico. L'IA può essere utile per il supporto, ma non è uno strumento affidabile per le crisi. Le persone che affrontano un serio disagio dovrebbero comunque rivolgersi a professionisti formati o a un supporto umano fidato.
Altri articoli
I rischi per la salute mentale legati all'IA esposti poiché i chatbot a volte consentono danni
Uno studio di Stanford ha scoperto che i chatbot AI a volte possono favorire pensieri violenti o di autolesionismo in rari casi, rivelando lacune nella risposta alle crisi e sollevando preoccupazioni su quanto siano sicuri questi strumenti per il supporto emotivo.
