ChatGPT, Gemini e altri bot AI danno cattivi consigli medici metà delle volte

      Le persone utilizzano già chatbot AI come motori di ricerca per informazioni sanitarie quotidiane. Questa abitudine sembra più rischiosa dopo che un nuovo studio ha scoperto che metà delle risposte fornite da cinque importanti chatbot erano problematiche, anche quando le risposte sembravano curate e sicure.

      I ricercatori hanno testato ChatGPT, Gemini, Grok, Meta AI e DeepSeek con 250 richieste su cancro, vaccini, cellule staminali, nutrizione e prestazioni atletiche.

      Le richieste riflettevano domande comuni sulla salute e temi di disinformazione familiari, quindi hanno misurato se i chatbot rimanessero allineati con le evidenze scientifiche o si allontanassero in consigli fuorvianti e potenzialmente pericolosi.

      Domande generali hanno rivelato le maggiori lacune

      I risultati più deboli sono venuti da richieste aperte. Quelle domande più ampie hanno prodotto molte più risposte altamente problematiche del previsto, mentre le richieste chiuse erano più propense a generare risposte più sicure.

      Unsplash

      Questo è importante perché le persone reali di solito non pongono domande mediche in un formato ordinato a scelta multipla. Chiedono se un trattamento funziona, se un vaccino è sicuro o cosa potrebbe migliorare le prestazioni atletiche.

      Nello studio, quel tipo di richiesta ha spinto i chatbot verso risposte che mescolavano evidenze solide con affermazioni più deboli o fuorvianti.

      Forte sicurezza, fonti inaffidabili

      I difetti non si fermavano alle risposte stesse. La qualità delle fonti era scarsa, con un punteggio medio di completezza del 40%, e nessuno dei chatbot ha prodotto un elenco di riferimenti completamente accurato.

      Questo indebolisce uno dei motivi principali per cui le persone si fidano delle risposte dei chatbot. Una risposta può sembrare ben documentata e autorevole, per poi crollare una volta verificate le citazioni.

      Gemini su uno smartphone Unsplash

      I ricercatori hanno anche segnalato riferimenti fabbricati, mentre i chatbot continuavano a rispondere con certezza e offrivano quasi nessuna avvertenza.

      Perché questo è importante oltre un singolo test

      Ci sono limiti ai risultati. Lo studio ha coperto solo cinque chatbot, questi prodotti cambiano rapidamente e le richieste sono state costruite per mettere alla prova i modelli, il che potrebbe esagerare quanto spesso compaiono risposte sbagliate nell'uso quotidiano.

      Tuttavia, il messaggio principale è difficile da ignorare. Questi sistemi sono stati testati su argomenti medici basati su evidenze, e metà delle risposte ha comunque oltrepassato il territorio difettoso o incompleto.

      Per ora, i chatbot possono aiutare a riassumere informazioni o a formulare domande di follow-up, ma non sembrano ancora abbastanza affidabili per decisioni mediche significative.

Altri articoli

Il fondatore di SaaStock si ritira, chiude un marchio di 10 anni e lancia Shift AI per l'era post-SaaS. Alexander Theuma sta uccidendo SaaStock dopo un decennio e lanciando Shift AI, citando 2 trilioni di dollari di capitalizzazione di mercato SaaS cancellata e il crollo dei prezzi per posto sotto la pressione degli agenti AI.

Auctor emerge dall'ombra con 20 milioni di dollari guidati da Sequoia Auctor è emersa dall'ombra con 20 milioni di dollari guidati da Sequoia Capital per risolvere l'implementazione del software aziendale, un mercato in cui metà dei progetti non rispetta le scadenze.

Wayve estende il suo round da 1,2 miliardi di dollari con 60 milioni di dollari da AMD, Arm e Qualcomm Wayve ha raccolto 60 milioni di dollari da AMD, Arm e Qualcomm Ventures, estendendo il suo Series D da 1,2 miliardi di dollari. Sono previsti piloti di robotaxi con Uber a Tokyo e Londra a partire dal 2026.

Questa EV cinese da $8.000 si ispira alla Mini Cooper e offre un'autonomia EV rispettabile. L'aggiornata Wuling Hongguang Mini EV arriva con un design ispirato alla Mini Cooper, 301 km di autonomia e un prezzo che parte da meno di 6.500 dollari.

L'UE afferma che la sua app di verifica dell'età è pronta L'UE ha svelato un'app di verifica dell'età open-source che utilizza la prova a conoscenza zero per proteggere i bambini dai contenuti dannosi online.

Samsung sembra stia pianificando un altro telefono TriFold, ma in un formato widescreen. Ampio come si può.

ChatGPT, Gemini e altri bot AI danno cattivi consigli medici metà delle volte

Uno studio di BMJ Open ha rilevato che cinque dei principali chatbot AI restituivano spesso consigli sulla salute errati, con domande aperte che attivavano le risposte peggiori e la qualità delle citazioni che crollava sotto esame.