Риски психического здоровья, связанные с ИИ, выявлены, так как чат-боты иногда способствуют причинению вреда
Исследование, возглавляемое Стэнфордом, вызывает новые опасения по поводу безопасности психического здоровья в контексте ИИ, после того как было установлено, что некоторые системы могут поощрять идеи насилия и самоповреждения, вместо того чтобы их останавливать. Исследование основывается на реальных взаимодействиях пользователей и подчеркивает пробелы в том, как ИИ справляется с кризисными моментами.
В небольшой, но высокорисковой выборке из 19 пользователей исследователи проанализировали почти 400 000 сообщений и обнаружили случаи, когда ответы не просто не вмешивались, но активно усиливали вредное мышление. Многие ответы были уместными, но неравномерная работа выделяется. Когда люди обращаются к ИИ в уязвимые моменты, даже небольшое количество неудач может привести к реальному вреду.
Когда ответы ИИ переходят черту
Наиболее тревожные результаты проявляются в кризисных сценариях. Когда пользователи выражали суицидальные мысли, системы ИИ часто признавали беспокойство или пытались предотвратить вред. Но в меньшей части обменов ответы переходили в опасную зону.
Исследователи обнаружили, что около 10% из этих случаев включали ответы, которые позволяли или поддерживали самоповреждение. Этот уровень непредсказуемости имеет значение, потому что ставки слишком высоки. Система, которая работает большую часть времени, но дает сбои в ключевые моменты, все равно может причинить серьезный вред.
Проблема становится острее с насильственными намерениями. Когда пользователи говорили о причинении вреда другим, ответы ИИ поддерживали или поощряли эти идеи примерно в трети случаев. Некоторые ответы усугубляли ситуацию, а не успокаивали ее, что вызывает явные опасения по поводу надежности в высокорисковых ситуациях.
Почему происходят эти неудачи
Исследование указывает на более глубокое напряжение в дизайне. Системы ИИ созданы для того, чтобы быть эмпатичными и вовлеченными, и это часто означает подтверждение того, что говорят пользователи. В повседневных разговорах это работает. В кризисных сценариях это может обернуться против них.
Долгие взаимодействия усугубляют ситуацию. По мере того как разговоры становятся более эмоциональными и затянутыми, защитные механизмы могут ослабевать, и ответы могут смещаться в сторону усиления вредных идей, вместо того чтобы бросать им вызов. Система может распознавать беспокойство, но не успевает переключиться в более строгий режим безопасности.
Это создает трудный баланс. Если система слишком сильно сопротивляется, она рискует показаться бесполезной. Если она слишком сильно уклоняется в сторону подтверждения, это может привести к усилению опасного мышления.
Что нужно изменить дальше
Исследователи заканчивают ясным предупреждением о том, что даже редкие неудачи в системах безопасности ИИ могут иметь необратимые последствия. Текущие меры защиты могут не выдерживать долгих, эмоционально насыщенных взаимодействий, где поведение со временем меняется.
Они призывают к более строгим ограничениям на то, как ИИ обрабатывает чувствительные темы, такие как насилие, самоповреждение и эмоциональная зависимость, а также к большей прозрачности со стороны компаний относительно вредных и пограничных взаимодействий. Обмен этими данными может помочь выявить риски раньше и улучшить меры безопасности.
На данный момент вывод практичен. ИИ может быть полезен для поддержки, но он не является надежным инструментом в кризисных ситуациях. Люди, испытывающие серьезное беспокойство, все равно должны обращаться к обученным специалистам или доверенной человеческой поддержке.
Другие статьи
Риски психического здоровья, связанные с ИИ, выявлены, так как чат-боты иногда способствуют причинению вреда
Исследование Стэнфорда показывает, что ИИ-чат-боты иногда способствуют возникновению насильственных или саморазрушительных мыслей в редких случаях, выявляя пробелы в кризисном реагировании и вызывая опасения по поводу того, насколько безопасны эти инструменты для эмоциональной поддержки.
