ChatGPT, Gemini и другие ИИ-боты дают плохие медицинские советы половину времени

      Люди уже используют ИИ-чат-ботов, как поисковые системы, для получения информации о здоровье в повседневной жизни. Эта привычка выглядит более рискованной после того, как новое исследование показало, что половина ответов от пяти основных ботов была проблемной, даже когда ответы звучали отшлифованно и уверенно.

      Исследователи протестировали ChatGPT, Gemini, Grok, Meta AI и DeepSeek с 250 запросами по темам рака, вакцин, стволовых клеток, питания и спортивной производительности.

      Запросы отражали распространенные вопросы о здоровье и знакомые темы дезинформации, затем измеряли, оставались ли боты в соответствии с научными данными или отклонялись к вводящим в заблуждение и потенциально небезопасным советам.

      Широкие вопросы выявили самые большие пробелы

      Слабейшие результаты были получены от открытых запросов. Эти более широкие вопросы дали гораздо больше проблемных ответов, чем ожидалось, в то время как закрытые запросы с большей вероятностью приводили к более безопасным ответам.

      Unsplash

      Это важно, потому что реальные люди обычно не задают медицинские вопросы в аккуратном формате с множественным выбором. Они спрашивают, работает ли лечение, безопасна ли вакцина или что может улучшить спортивную производительность.

      В исследовании такой тип запроса подталкивал ботов к ответам, которые смешивали надежные данные с более слабыми или вводящими в заблуждение утверждениями.

      Сильная уверенность, шаткие источники

      Недостатки не ограничивались только самими ответами. Качество ссылок было низким, со средней оценкой полноты 40%, и ни один из чат-ботов не предоставил полностью точный список ссылок.

      Это ослабляет одну из главных причин, по которой люди доверяют ответам чат-ботов. Ответ может выглядеть как ссылающийся и авторитетный, а затем развалиться, как только ссылки проверяются.

      Gemini на смартфоне Unsplash

      Исследователи также отметили поддельные ссылки, в то время как боты все равно отвечали с уверенностью и почти не предлагали оговорок.

      Почему это важно за пределами одного теста

      Есть ограничения в выводах. Исследование охватило только пять чат-ботов, эти продукты быстро меняются, и запросы были построены так, чтобы проверить модели, что может преувеличивать, как часто плохие ответы появляются в повседневном использовании.

      Тем не менее, основной вывод трудно игнорировать. Эти системы были протестированы на медицинских темах, основанных на доказательствах, и половина ответов все равно пересекала границы ошибочных или неполных данных.

      На данный момент чат-боты могут помочь обобщить информацию или сформулировать последующие вопросы, но они все еще не выглядят достаточно надежными для значимых медицинских решений.

Other articles

FCC одобряет Netgear, в то время как запрет на маршрутизаторы иностранного производства остается в силе Netgear — первый бренд розничных маршрутизаторов, который получил исключение от FCC от запрета на маршрутизаторы иностранного производства, что дает ему более четкий путь для продолжения запуска новых моделей, в то время как соперники сталкиваются с более жесткими вопросами.

Auctor выходит из тени с $20M, возглавляемыми Sequoia Auctor вышел из тени с $20 млн, возглавляемыми Sequoia Capital, чтобы исправить внедрение корпоративного программного обеспечения, на рынке, где половина проектов не укладывается в сроки.

Auctor выходит из тени с $20M, возглавляемыми Sequoia Auctor вышел из тени с $20 млн, возглавляемыми Sequoia Capital, чтобы исправить внедрение программного обеспечения для предприятий, на рынке, где половина проектов не укладывается в сроки.

Samsung, по всей видимости, планирует еще один телефон TriFold, но в формате широкого экрана. Так широко, как только возможно.

Американские коммунальные службы планируют потратить 1,4 триллиона долларов к 2030 году на поддержку бума в области ИИ. Американские коммунальные компании планируют инвестировать 1,4 триллиона долларов в электрическую инфраструктуру, что обусловлено центрами обработки данных на основе ИИ. Жилые потребители могут понести почти половину затрат.

30+ плагинов WordPress, купленных на Flippa и с бэкдором в атаке на цепочку поставок Злоумышленник приобрел более 30 плагинов WordPress на Flippa, внедрил задние двери, которые оставались неактивными в течение восьми месяцев, а затем активировал скрытый SEO-спам, который обслуживался только Googlebot. У WordPress нет проверки передачи прав собственности.

ChatGPT, Gemini и другие ИИ-боты дают плохие медицинские советы половину времени

Исследование BMJ Open показало, что пять ведущих AI-чатботов часто давали ошибочные советы по здоровью, при этом открытые вопросы вызывали наихудшие ответы, а качество ссылок ухудшалось при проверке.