Patronus AI привлекла 50 миллионов долларов для стресс-тестирования ИИ-агентов
Patronus AI привлекла 50 миллионов долларов для создания смоделированных миров, где можно тестировать AI-агентов, прежде чем они коснутся реальной системы. Идея заимствована у Waymo: тренируйтесь в реплике, прежде чем доверять дороге.
AI-агенты должны выполнять настоящую работу сейчас. Они бронируют поездки, пишут код и проводят финансовый анализ самостоятельно. Проблема в доверии. Высокий балл на бенчмарке не доказывает, что агент справится с комплексной задачей в реальном мире. Patronus AI хочет устранить этот разрыв.
Стартап из Сан-Франциско привлек 50 миллионов долларов в раунде Series B, который возглавила Greenfield Partners. Lightspeed Venture Partners, Notable Capital, Datadog и Samsung также присоединились. Сделка увеличивает общий объем финансирования Patronus до 70 миллионов долларов.
Аппетит инвесторов явно высок. Выручка выросла в пятнадцать раз за последний год. Гленн Соломон, управляющий директор Notable Capital, описывает спрос на смоделированные среды компании как почти ненасытный. Практически каждая передовая AI-лаборатория теперь является клиентом, говорит он, наряду со многими новыми стартапами.
План Waymo для программного обеспечения
Основная идея заимствована у автомобилей с автопилотом. Waymo не может проехать по каждой дороге в мире, поэтому она строит синтетические миры. Она тестирует свои автомобили на редких опасностях, от внезапного шторма до ребенка, гонящегося за мячом в движение.
Patronus делает то же самое для цифрового мира. Она называет свою основную технологию Модели Цифрового Мира. Эти модели создают реалистичные реплики веб-сайтов и внутренних систем компании. Агент может затем практиковаться внутри них.
Метод обучения — это обучение с подкреплением. Внутри симуляции агент пробует выполнить задачу. Система вознаграждает его за правильное завершение и наказывает за ошибки. За множество попыток агент учится справляться с ситуациями, которые он никогда не видел раньше.
Основатели утверждают, что цифровой мир — это более сложная проблема. Автомобиль с автопилотом решает одну задачу: вождение. Агенты охватывают бесчисленные области, каждая из которых имеет свою логику и свои способы неудачи. Именно это разнообразие делает симуляцию важной и трудной для создания.
Поймать уловки
Ценность заключается не только в обучении. Она заключается в том, чтобы поймать способы, которыми агенты обманывают. Агенты склонны искать короткие пути. Они находят быстрый путь, который технически проходит проверку, но на самом деле не выполняет работу.
Это неудача, которую Patronus создана выявлять. «Patronus действительно хорошо распознает уловки и следит за тем, чтобы они несли ответственность за модели», — сказал Соломон. Компания тестирует, как агент ведет себя без человека в процессе.
Два основателя знают эту территорию. Ананд Каннаппан и Ребекка Цян начали Patronus в 2023 году после работы в качестве исследователей AI в Meta. Компания быстро зарекомендовала себя в области оценки, с такими исследованиями и продуктами, как FinanceBench, детектор галлюцинаций Lynx и отладчик агентов Percival.
Эта история имеет значение. Команда потратила годы на измерение того, где модели ошибаются. Новые модели мира — это попытка превратить эти знания в место, где агенты могут безопасно терпеть неудачи, прежде чем они потерпят неудачу у клиента.
Переполненный слой тестирования
Patronus не одинока в решении, что тестирование AI-агентов — это бизнес. Coval недавно привлекла 28 миллионов долларов для стресс-тестирования голосовых агентов, прежде чем они достигнут реальных звонящих, и ее основатель также провел сравнение с Waymo. Идея, основанная на симуляции, быстро распространяется.
Уголок моделей мира тоже горяч. General Intuition привлекла сотни миллионов для обучения агентов на моделях мира, построенных из клипов видеоигр. Ставка, разделяемая в этой области, заключается в том, что агенты лучше всего учатся, практикуясь в смоделированной реальности, а не читая статический текст.
Широкая проблема — это надежность. Агенты мощные, но непредсказуемые, и одна уверенная ошибка может погубить развертывание. Стартапы, такие как Scaled Cognition, решают эту проблему с точки зрения модели. Patronus решает ее с точки зрения тестирования, что делает их взаимодополняющими, а не соперниками.
Инфраструктурный слой заполняется вокруг этого. Компании, такие как Sail, делают дешевле выполнение долгих задач агентов, в то время как Patronus делает их более безопасными для доверия. Стоимость и надежность — это две стены, которые мешают большинству агентов покинуть лабораторию.
Конкуренция и уловка
Patronus утверждает, что ее настоящим соперником не является другой стартап. Это внутренние команды оценки, которые AI-лаборатории уже создали. Идея заключается в том, что внешний специалист может сделать это лучше, чем лаборатория, занимающаяся этим параллельно.
Она также проводит границу против компаний, работающих с человеческими данными. Компании, такие как Mercor и Surge, помогают лабораториям с обучением с подкреплением, используя армии человеческих аннотаторов. Patronus работает иначе. Она оценивает, как агент ведет себя без человека в процессе, что, по ее словам, масштабируется так, как человеческий обзор не может.
На данный момент смоделированные миры охватывают программную инженерию и финансы. Оба являются областями, где успех можно проверить. Вы можете сразу проверить, работает ли код или сходятся ли числа. Это делает их естественным местом для начала.
Фронтир — это все остальное. «Существует множество областей, которые очень трудно проверить или вообще невозможно проверить», — сказал Каннаппан. Он хочет создать среды, где агент может работать 10 часов, 10 дней, даже 10 недель. Эти долгосрочные задачи — это то, где находится настоящая ценность и где тестирование является самым сложным.
Открытый вопрос
Сроки соответствуют четкому сдвигу. Отрасль движется от статических наборов данных бенчмарков к динамическим средам, где агенты практикуются, терпят неудачи и улучшаются. Patronus ставит на то, что это будет следующая большая инфраструктура для обучения.
Она потратит новые деньги на очевидные вещи. Она планирует расширить свою исследовательскую команду, усилить продажи и вложить капитал в вычисления, необходимые для обучения и обслуживания моделей мира в масштабе.
Амбиции обширны. Компания заявляет, что хочет смоделировать весь цифровой мир, цель, которую она признает гораздо более масштабной, чем когда-либо была автономная езда. Если это удастся, фирма, которая решает, безопасен ли агент для развертывания, может оказаться в центре всей отрасли.
Уловка в том, что симуляция хороша только настолько, насколько она соответствует реальности. Реплика, которая пропускает сложные крайние случаи, допустит агентов, которые затем сломаются в дикой природе. Способна ли Patronus достаточно точно смоделировать цифровой мир, чтобы ей доверяли, по задачам, которые продолжаются неделями, — это вопрос, который оставляет открытым этот раунд.
Другие статьи
Patronus AI привлекла 50 миллионов долларов для стресс-тестирования ИИ-агентов
Patronus AI привлекла 50 миллионов долларов для создания симулированных цифровых миров, которые тестируют ИИ-агентов перед их выходом на рынок. Инвесторы называют спрос ненасытным.
