ChatGPT, Gemini и другие ИИ-боты дают плохие медицинские советы половину времени
Люди уже используют ИИ-чат-ботов, как поисковые системы, для получения информации о здоровье в повседневной жизни. Эта привычка выглядит более рискованной после того, как новое исследование показало, что половина ответов от пяти основных ботов была проблемной, даже когда ответы звучали отшлифованно и уверенно.
Исследователи протестировали ChatGPT, Gemini, Grok, Meta AI и DeepSeek с 250 запросами по темам рака, вакцин, стволовых клеток, питания и спортивной производительности.
Запросы отражали распространенные вопросы о здоровье и знакомые темы дезинформации, затем измеряли, оставались ли боты в соответствии с научными данными или отклонялись к вводящим в заблуждение и потенциально небезопасным советам.
Широкие вопросы выявили самые большие пробелы
Слабейшие результаты были получены от открытых запросов. Эти более широкие вопросы дали гораздо больше проблемных ответов, чем ожидалось, в то время как закрытые запросы с большей вероятностью приводили к более безопасным ответам.
Unsplash
Это важно, потому что реальные люди обычно не задают медицинские вопросы в аккуратном формате с множественным выбором. Они спрашивают, работает ли лечение, безопасна ли вакцина или что может улучшить спортивную производительность.
В исследовании такой тип запроса подталкивал ботов к ответам, которые смешивали надежные данные с более слабыми или вводящими в заблуждение утверждениями.
Сильная уверенность, шаткие источники
Недостатки не ограничивались только самими ответами. Качество ссылок было низким, со средней оценкой полноты 40%, и ни один из чат-ботов не предоставил полностью точный список ссылок.
Это ослабляет одну из главных причин, по которой люди доверяют ответам чат-ботов. Ответ может выглядеть как ссылающийся и авторитетный, а затем развалиться, как только ссылки проверяются.
Gemini на смартфоне Unsplash
Исследователи также отметили поддельные ссылки, в то время как боты все равно отвечали с уверенностью и почти не предлагали оговорок.
Почему это важно за пределами одного теста
Есть ограничения в выводах. Исследование охватило только пять чат-ботов, эти продукты быстро меняются, и запросы были построены так, чтобы проверить модели, что может преувеличивать, как часто плохие ответы появляются в повседневном использовании.
Тем не менее, основной вывод трудно игнорировать. Эти системы были протестированы на медицинских темах, основанных на доказательствах, и половина ответов все равно пересекала границы ошибочных или неполных данных.
На данный момент чат-боты могут помочь обобщить информацию или сформулировать последующие вопросы, но они все еще не выглядят достаточно надежными для значимых медицинских решений.
Other articles
ChatGPT, Gemini и другие ИИ-боты дают плохие медицинские советы половину времени
Исследование BMJ Open показало, что пять ведущих AI-чатботов часто давали ошибочные советы по здоровью, при этом открытые вопросы вызывали наихудшие ответы, а качество ссылок ухудшалось при проверке.
