OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

      OpenAI провела последний год, сталкиваясь с судебными исками от семей молодых людей, которые погибли после длительных взаимодействий с ChatGPT. Теперь она пытается предоставить разработчикам, создающим приложения на основе ее моделей, инструменты, чтобы избежать создания той же проблемы.

      Компания объявила во вторник, что выпускает набор открытых, основанных на подсказках политик безопасности, предназначенных для помощи разработчикам в создании более безопасных AI-приложений для подростков. Политики предназначены для использования с gpt-oss-safeguard, открытой моделью безопасности OpenAI, хотя они разработаны как подсказки и могут работать и с другими моделями.

      Что охватывают политики

      Подсказки нацелены на пять категорий вреда, который AI-системы могут причинить молодым пользователям: графическое насилие и сексуальный контент, вредные идеалы и поведение тела, опасные действия и вызовы, романтические или насильственные ролевые игры и товары и услуги с ограничением по возрасту. Разработчики могут интегрировать эти политики в свои системы, а не создавать правила безопасности для подростков с нуля, процесс, который OpenAI признала сложным даже для опытных команд.

      OpenAI разработала политики в сотрудничестве с Common Sense Media, влиятельной организацией по защите детей, и everyone.ai, консалтинговой компанией по безопасности AI. Робби Торни, руководитель AI и цифровых оценок в Common Sense Media, сказал, что подход на основе подсказок предназначен для установления базового уровня в экосистеме разработчиков, который можно адаптировать и улучшать со временем, поскольку политики являются открытыми.

      💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных AI-артов. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас!

      OpenAI сама сформулировала проблему в прагматичных терминах. Разработчики, как написала компания в блоге, часто испытывают трудности с переводом целей безопасности в точные операционные правила. В результате получается неполная защита: пробелы в охвате, непоследовательное применение или фильтры, которые настолько широки, что ухудшают пользовательский опыт для всех.

      Контекст имеет значение

      Этот релиз не существует в вакууме. OpenAI сталкивается как минимум с восемью судебными исками, утверждающими, что ChatGPT способствовал смерти пользователей, включая 16-летнего Адама Рейна, который покончил с собой в апреле 2025 года после месяцев интенсивного взаимодействия с чат-ботом. Судебные документы показали, что ChatGPT упоминал самоубийство более 1200 раз в разговорах Рейна и отметил сотни сообщений с контентом о самоповреждении, но никогда не завершал сессию или не предупреждал никого. Три дополнительных самоубийства и четыре случая, описанных как психотические эпизоды, вызванные AI, также привели к судебным искам против компании.

      В ответ на эти случаи OpenAI внедрила родительский контроль и функции предсказания возраста в конце 2025 года, а в декабре обновила свои внутренние руководящие принципы, регулирующие поведение ее крупных языковых моделей, чтобы включить конкретные защиты для пользователей младше 18 лет. Объявленные на этой неделе открытые политики безопасности расширяют эти усилия за пределы собственных продуктов OpenAI и в более широкую экосистему разработчиков.

      Минимум, а не максимум

      OpenAI четко указала, что политики не являются всеобъемлющим решением проблемы обеспечения безопасности AI для молодых пользователей. Они представляют собой то, что компания назвала «значимым уровнем безопасности», а не полным объемом мер предосторожности, которые она применяет к своим собственным продуктам. Это различие имеет значение. Ни одна модель не имеет полностью непроницаемых защитных механизмов, как показали судебные иски. Пользователи, включая подростков, неоднократно находили способы обойти функции безопасности через настойчивые попытки и креативные подсказки.

      Открытый подход — это ставка на то, что широкое распространение базовых политик безопасности лучше, чем оставлять каждого разработчика изобретать велосипед, особенно для небольших команд и независимых разработчиков, у которых нет ресурсов для создания надежных систем безопасности с нуля. Эффективность политик будет зависеть от их принятия, от того, насколько активно разработчики их интегрируют, и от того, выдержат ли они испытания устойчивыми, противостоящими взаимодействиями, которые уже выявили слабости в собственных слоях безопасности ChatGPT.

      Сложный вопрос остается

      То, что предлагает OpenAI, — это набор инструкций, хорошо разработанных подсказок, которые говорят модели, как вести себя при взаимодействии с молодыми пользователями. Это практический вклад. Но он не решает структурную проблему, которую регуляторы, родители и защитники безопасности поднимают на протяжении многих лет: что AI-системы, способные к устойчивому, эмоционально вовлекающему общению с несовершеннолетними, могут требовать большего, чем просто лучшие подсказки. Они могут требовать принципиально других архитектур или внешних систем мониторинга, которые полностью находятся вне модели.

      На данный момент, однако, существует загружаемый набор политик безопасности для подростков. Это не ничего. Достаточно ли этого — вопрос, на который ответят суды, регуляторы и следующий набор заголовков.

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

Другие статьи

Halter привлек $220 миллионов при оценке в $2 миллиарда для масштабирования виртуального ограждения Halter привлек $220 миллионов при оценке в $2 миллиарда для масштабирования виртуального ограждения Новая зеландская агротехнологическая стартап-компания Halter закрыла раунд финансирования серии E на сумму 220 миллионов долларов, возглавляемый Founders Fund, что оценило компанию по производству виртуальных заборов в 2 миллиарда долларов после продажи одного миллиона GPS-ошейников для скота. Domino’s представляет продвинутый AI-трекинг и живые активности для лучшей видимости заказов Domino’s представляет продвинутый AI-трекинг и живые активности для лучшей видимости заказов Ваш iPhone будет показывать актуальные обновления о пицце без открытия приложения. Samsung представляет новые телевизоры 2026 года с обновлениями Mini LED и более умным ИИ Samsung представляет новые телевизоры 2026 года с обновлениями Mini LED и более умным ИИ Samsung представила свою линейку телевизоров 2026 года с новыми моделями Neo QLED и Mini LED, сосредоточив внимание на улучшениях изображения с использованием ИИ и более широких ценовых вариантах. OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ OpenAI выпустила политики безопасности на основе подсказок для разработчиков, создающих AI-приложения, используемые подростками, охватывающие насилие, самоповреждение и контент с возрастными ограничениями. Energy Vault приобретает проект хранения энергии мощностью 175 МВт рядом с Далласом Energy Vault приобретает проект хранения энергии мощностью 175 МВт рядом с Далласом Energy Vault приобрела проект хранения энергии мощностью 175 МВт в ERCOT North у Belltown Power, продвигая свой план развертывания мощностью 1,500 МВт и инфраструктуру ИИ. macOS 26.4 теперь доступен с незначительными обновлениями и большим намеком на будущее macOS 26.4 теперь доступен с незначительными обновлениями и большим намеком на будущее macOS 26.4 теперь доступна с новыми эмодзи, ограничениями зарядки батареи, изменениями в Safari и исправлениями производительности, но пока без крупных обновлений ИИ Siri.

OpenAI выпускает инструменты безопасности для подростков с открытым исходным кодом для разработчиков ИИ

OpenAI выпустила политики безопасности на основе подсказок для разработчиков, создающих AI-приложения, используемые подростками, охватывающие насилие, самоповреждение и контент с возрастными ограничениями.