OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

      OpenAI провела последний год, сталкиваясь с судебными исками от семей молодых людей, которые погибли после длительных взаимодействий с ChatGPT. Теперь она пытается предоставить разработчикам, создающим приложения на основе ее моделей, инструменты, чтобы избежать создания той же проблемы.

      Компания объявила во вторник, что выпускает набор открытых, основанных на подсказках политик безопасности, предназначенных для помощи разработчикам в создании более безопасных AI-приложений для подростков. Политики предназначены для использования с gpt-oss-safeguard, открытой моделью безопасности OpenAI, хотя они разработаны как подсказки и могут работать и с другими моделями.

      Что охватывают политики

      Подсказки нацелены на пять категорий вреда, который AI-системы могут причинить молодым пользователям: графическое насилие и сексуальный контент, вредные идеалы и поведение тела, опасные действия и вызовы, романтические или насильственные ролевые игры и товары и услуги с ограничением по возрасту. Разработчики могут интегрировать эти политики в свои системы, а не создавать правила безопасности для подростков с нуля, процесс, который OpenAI признала сложным даже для опытных команд.

      OpenAI разработала политики в сотрудничестве с Common Sense Media, влиятельной организацией по защите детей, и everyone.ai, консалтинговой компанией по безопасности AI. Робби Торни, руководитель AI и цифровых оценок в Common Sense Media, сказал, что подход на основе подсказок предназначен для установления базового уровня в экосистеме разработчиков, который можно адаптировать и улучшать со временем, поскольку политики являются открытыми.

      💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных AI-артов. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас!

      OpenAI сама сформулировала проблему в прагматичных терминах. Разработчики, как написала компания в блоге, часто испытывают трудности с переводом целей безопасности в точные операционные правила. В результате получается неполная защита: пробелы в охвате, непоследовательное применение или фильтры, которые настолько широки, что ухудшают пользовательский опыт для всех.

      Контекст имеет значение

      Этот релиз не существует в вакууме. OpenAI сталкивается как минимум с восемью судебными исками, утверждающими, что ChatGPT способствовал смерти пользователей, включая 16-летнего Адама Рейна, который покончил с собой в апреле 2025 года после месяцев интенсивного взаимодействия с чат-ботом. Судебные документы показали, что ChatGPT упоминал самоубийство более 1200 раз в разговорах Рейна и отметил сотни сообщений с контентом о самоповреждении, но никогда не завершал сессию или не предупреждал никого. Три дополнительных самоубийства и четыре случая, описанных как психотические эпизоды, вызванные AI, также привели к судебным искам против компании.

      В ответ на эти случаи OpenAI внедрила родительский контроль и функции предсказания возраста в конце 2025 года, а в декабре обновила свои внутренние руководящие принципы, регулирующие поведение ее крупных языковых моделей, чтобы включить конкретные защиты для пользователей младше 18 лет. Объявленные на этой неделе открытые политики безопасности расширяют эти усилия за пределы собственных продуктов OpenAI и в более широкую экосистему разработчиков.

      Минимум, а не максимум

      OpenAI четко указала, что политики не являются всеобъемлющим решением проблемы обеспечения безопасности AI для молодых пользователей. Они представляют собой то, что компания назвала «значимым уровнем безопасности», а не полным объемом мер предосторожности, которые она применяет к своим собственным продуктам. Это различие имеет значение. Ни одна модель не имеет полностью непроницаемых защитных механизмов, как показали судебные иски. Пользователи, включая подростков, неоднократно находили способы обойти функции безопасности через настойчивые попытки и креативные подсказки.

      Открытый подход — это ставка на то, что широкое распространение базовых политик безопасности лучше, чем оставлять каждого разработчика изобретать велосипед, особенно для небольших команд и независимых разработчиков, у которых нет ресурсов для создания надежных систем безопасности с нуля. Эффективность политик будет зависеть от их принятия, от того, насколько активно разработчики их интегрируют, и от того, выдержат ли они испытания устойчивыми, противостоящими взаимодействиями, которые уже выявили слабости в собственных слоях безопасности ChatGPT.

      Сложный вопрос остается

      То, что предлагает OpenAI, — это набор инструкций, хорошо разработанных подсказок, которые говорят модели, как вести себя при взаимодействии с молодыми пользователями. Это практический вклад. Но он не решает структурную проблему, которую регуляторы, родители и защитники безопасности поднимают на протяжении многих лет: что AI-системы, способные к устойчивому, эмоционально вовлекающему общению с несовершеннолетними, могут требовать большего, чем просто лучшие подсказки. Они могут требовать принципиально других архитектур или внешних систем мониторинга, которые полностью находятся вне модели.

      На данный момент, однако, существует загружаемый набор политик безопасности для подростков. Это не ничего. Достаточно ли этого — вопрос, на который ответят суды, регуляторы и следующий набор заголовков.

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

Другие статьи

Energy Vault приобретает проект хранения энергии мощностью 175 МВт рядом с Далласом Energy Vault приобретает проект хранения энергии мощностью 175 МВт рядом с Далласом Energy Vault приобрела проект хранения энергии мощностью 175 МВт в ERCOT North у Belltown Power, продвигая свой план развертывания мощностью 1,500 МВт и инфраструктуру ИИ. Рендеры Galaxy Z Fold 8 намекают на то, что Samsung исправляет одну большую ошибку Fold 7 Рендеры Galaxy Z Fold 8 намекают на то, что Samsung исправляет одну большую ошибку Fold 7 Samsung не изобретает колесо с Galaxy Z Fold 8, но заставляет его вращаться быстрее — с батареей на 5000 мАч, зарядкой на 45 Вт и 50-мегапиксельной ультраширокоугольной камерой, наконец, присоединившейся к вечеринке. Samsung представляет новые телевизоры 2026 года с обновлениями Mini LED и более умным ИИ Samsung представляет новые телевизоры 2026 года с обновлениями Mini LED и более умным ИИ Samsung представила свою линейку телевизоров 2026 года с новыми моделями Neo QLED и Mini LED, сосредоточив внимание на улучшениях изображения с использованием ИИ и более широких ценовых вариантах. Не пропустите M4 MacBook Air: 24 ГБ ОЗУ, 15-дюймовый Retina дисплей и скидка в 300 долларов благодаря запуску M5 Не пропустите M4 MacBook Air: 24 ГБ ОЗУ, 15-дюймовый Retina дисплей и скидка в 300 долларов благодаря запуску M5 M5 MacBook Air от Apple вышел, и предсказуемый эффект заключается в том, что 15-дюймовый M4 упал до $1,299 на Amazon, что составляет экономию в $300 от его розничной цены в $1,599. Если вы ждали подходящего момента, чтобы приобрести MacBook Air, то вот он. Чип M4 по-прежнему является одним из […] Реклама в Apple Maps теперь официальна, и она появится этим летом. Реклама в Apple Maps теперь официальна, и она появится этим летом. Apple подтвердила, что реклама появится в Apple Maps этим летом в США и Канаде, с появлением спонсируемых результатов в поиске. Spotify хочет, чтобы вы исследовали музыку как никогда раньше с помощью SongDNA Spotify хочет, чтобы вы исследовали музыку как никогда раньше с помощью SongDNA Spotify запустил SongDNA в бета-версии, функцию, которая отображает связи между песнями, артистами и сэмплами для более глубокого музыкального открытия.

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

OpenAI выпустила политики безопасности на основе подсказок для разработчиков, создающих AI-приложения, используемые подростками, охватывающие насилие, самоповреждение и контент с возрастными ограничениями.