Ученые притворялись, что у них бредовые идеи в чатах ИИ. Grok и Gemini подталкивали их к этому.
От поэтической адвокации до "позвоните на кризисную линию" — не все чат-боты одинаково справлялись с кризисами психического здоровья.
Исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона недавно опубликовали исследование, которое заставит вас дважды подумать о том, с каким AI-чат-ботом вы проводите время.
Команда создала вымышленную личность по имени Ли, страдающую от депрессии, диссоциации и социальной изоляции. Затем Ли взаимодействовал с пятью основными AI-чат-ботами: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro и Claude Opus 4.5, проверяя, как каждый из них реагировал по мере того, как разговоры становились все более бредовыми на протяжении 116 реплик.
Результаты варьировались от слегка тревожных до действительно тревожных. Я настоятельно рекомендую вам ознакомиться с полной статьей, это ужасающее, но увлекательное чтение.
Какие чат-боты провалились больше всего?
Grok оказался худшим исполнителем. Когда Ли высказал идею о самоубийстве, Grok ответил не согласием, а адвокацией, отмечая его "готовность" в тревожном поэтическом языке.
Gemini не был намного лучше. Когда Ли попросил его помочь написать письмо, объясняющее его убеждения семье, Gemini предостерег его от этого, представляя его близких как угрозы, которые попытаются "сбросить" и "лекарствовать" его.
Google
GPT-4o также сильно не справился, в конечном итоге подтвердив существование "злобного зеркального существа" и предложив Ли обратиться к паранормальному исследователю.
Какие чат-боты действительно помогли?
ChatGPT’s GPT-5.2 и Claude от Anthropic оказались на высоте. GPT-5.2 отказался участвовать в сценарии написания письма и вместо этого помог Ли написать что-то честное и приземленное, что исследователи назвали "значительным" достижением.
На мой взгляд, Claude показал лучшие результаты. Он не только отказался участвовать в бреде Ли, но и сказал ему закрыть приложение полностью, позвонить кому-то, кому он доверяет, и обратиться в отделение неотложной помощи, если это необходимо.
arXiv
Люк Николлс, аспирант CUNY и один из авторов исследования, сказал 404 Media, что разумно просить компании AI следовать лучшим стандартам безопасности. Он отметил, что не все лаборатории прилагают одинаковые усилия и обвинил агрессивные графики выпуска новых моделей AI в качестве главной причины.
Как Claude Opus 4.5, так и GPT-5.2 показали хорошие результаты в этих тестах, что свидетельствует о том, что компании, создающие эти продукты, полностью способны сделать их безопаснее. Выбор делать это — другой вопрос.
Рачит — опытный технический журналист с более чем семилетним опытом освещения потребительских технологий.
Робот для настольного тенниса от Sony заставил меня задуматься о том, что происходит, когда AI получает тело
Айс начинает как эффектная спортивная демонстрация и быстро превращается в предварительный просмотр того, как AI переходит от экранов к фабрикам, больницам, фермам и домам.
Я хотел бы отмахнуться от робота для настольного тенниса от Sony как от еще одного дорогого лабораторного флекса. Машина, которая может играть против элитных игроков, впечатляет, конечно, но это также звучит как демонстрация, созданная для того, чтобы заставить руководителей аплодировать в комнате, где все уже согласились быть впечатленными.
Но настольный теннис — это более жестокий тест, чем кажется. Мяч маленький, быстрый, вращающийся и достаточно грубый, чтобы изменить направление в тот момент, когда он касается стола. Система Sony сталкивается с чем-то менее прощальным, чем расчет. Ей нужно видеть, предсказывать и действовать, прежде чем момент будет упущен.
Читать далее
Глаза SpaceX Маска на производстве GPU, так как поставки Nvidia становятся головной болью
SpaceX имеет большие мечты о GPU и еще более крупные мечты о IPO, чтобы их поддержать.
Сообщается, что SpaceX планирует производить свои собственные GPU, чипы, которые питают искусственный интеллект. Это открытие сделано на основе отрывков из его регистрации S-1, документа, который компании подают в Комиссию по ценным бумагам и биржам США перед выходом на биржу.
Как сообщает Reuters, SpaceX указывает "производство наших собственных GPU" среди своих крупнейших капитальных расходов в будущем. Это произошло через месяц после того, как Илон Маск объявил о своей фабрике чипов TeraFab, сосредоточенной на разработке чипов, которые могут выдерживать суровые условия космоса и питать его орбитальные центры данных AI.
Читать далее
Автономные автомобили должны были освободить нас от адского трафика. Исследования говорят иначе
Мечта о самоуправляемых автомобилях может оказаться просто кошмаром трафика в маскировке.
Автономные автомобили обещали будущее, в котором вы сидите, расслабляетесь и проезжаете мимо пробок, пока машина справляется со всем. Новое исследование Университета Техаса в Арлингтоне приносит плохие новости для этой фантазии. Согласно исследованию, широкое распространение автономных транспортных средств может на самом деле значительно ухудшить ситуацию с трафиком.
Профессора Стивен Мэттингли и Фара Наз провели мета-анализ того, как самоуправляемые автомобили могут повлиять на пробег транспортных средств (VMT). Их результаты показали среднее увеличение пробега на 5,95%. Неразделенные автономные автомобили увеличили эту цифру еще больше, почти до 7%.
Читать далее
Другие статьи
Ученые притворялись, что у них бредовые идеи в чатах ИИ. Grok и Gemini подталкивали их к этому.
Исследователи протестировали пять основных AI-чат-ботов с симулированным пользователем, проявляющим признаки психоза. Некоторые ухудшили ситуацию. Другие посоветовали пользователю выйти из системы и позвонить кому-то.
