Patronus AI raccoglie 50 milioni di dollari per testare la resistenza degli agenti AI

      Patronus AI ha raccolto 50 milioni di dollari per costruire mondi simulati in cui gli agenti AI possono essere testati prima di toccare un sistema reale. L'idea si ispira a Waymo: allenati in una replica prima di fidarti della strada.

      Gli agenti AI sono destinati a svolgere lavori reali ora. Prenotano viaggi, scrivono codice e conducono analisi finanziarie autonomamente. Il problema è la fiducia. Un punteggio elevato su un benchmark non prova che un agente svolgerà correttamente un lavoro complesso nel mondo reale. Patronus AI vuole colmare questa lacuna.

      La startup di San Francisco ha raccolto 50 milioni di dollari in un round di finanziamento di Serie B guidato da Greenfield Partners. Anche Lightspeed Venture Partners, Notable Capital, Datadog e Samsung hanno partecipato. L'accordo porta Patronus a un totale di 70 milioni di dollari di finanziamenti.

      L'appetito degli investitori è chiaramente elevato. I ricavi sono cresciuti quindici volte nell'ultimo anno. Glenn Solomon, direttore generale di Notable Capital, descrive la domanda per gli ambienti simulati dell'azienda come quasi insaziabile. Praticamente ogni laboratorio AI all'avanguardia è ora un cliente, dice, insieme a molte startup emergenti.

      Il playbook di Waymo, per il software

      L'idea centrale è presa in prestito dalle auto a guida autonoma. Waymo non può percorrere ogni strada del mondo, quindi costruisce mondi sintetici. Testa le sue auto contro pericoli rari, da una tempesta improvvisa a un bambino che insegue una palla nel traffico.

      Patronus fa la stessa cosa per il mondo digitale. Chiama la sua tecnologia principale Modelli di Mondo Digitale. Questi modelli costruiscono repliche realistiche di siti web e sistemi aziendali interni. Un agente può quindi esercitarsi al loro interno.

      Il metodo di addestramento è l'apprendimento per rinforzo. All'interno della simulazione, l'agente prova un compito. Il sistema lo premia per aver completato correttamente e lo penalizza per gli errori. Dopo molti tentativi, l'agente impara a gestire situazioni che non ha mai visto prima.

      I fondatori sostengono che il mondo digitale è il problema più difficile. Un'auto a guida autonoma risolve un compito: guidare. Gli agenti coprono innumerevoli domini, ognuno con la propria logica e i propri modi di fallire. Questa ampiezza è esattamente il motivo per cui la simulazione è importante e perché è così difficile da costruire.

      Catturare le scorciatoie

      Il valore non risiede solo nell'addestramento. È nel catturare i modi in cui gli agenti imbrogliano. Gli agenti tendono a prendere scorciatoie. Trovano un percorso rapido che tecnicamente supera un controllo ma non svolge effettivamente il lavoro.

      Questo è il fallimento che Patronus è progettato per esporre. “Patronus è davvero bravo a individuare gli hack e a garantire che i modelli siano responsabili,” ha detto Solomon. L'azienda testa come si comporta un agente senza un umano nel loop.

      I due fondatori conoscono il territorio. Anand Kannappan e Rebecca Qian hanno fondato Patronus nel 2023 dopo aver lavorato come ricercatori AI presso Meta. L'azienda ha guadagnato notorietà fin dall'inizio con valutazioni, con ricerche e prodotti come FinanceBench, il rilevatore di allucinazioni Lynx e il debugger di agenti Percival.

      Quella storia conta qui. Il team ha trascorso anni a misurare dove i modelli vanno storti. I nuovi modelli di mondo sono un tentativo di trasformare quella conoscenza in un luogo in cui gli agenti possono fallire in sicurezza, prima di fallire su un cliente.

      Uno strato di test affollato

      Patronus non è sola nel decidere che testare gli agenti AI è un business. Coval ha recentemente raccolto 28 milioni di dollari per stress-testare gli agenti vocali prima che raggiungano chiamanti reali, e il suo fondatore ha anche fatto riferimento al confronto con Waymo. L'idea di simulazione prima si sta diffondendo rapidamente.

      L'angolo dei modelli di mondo è caldo anche. General Intuition ha raccolto centinaia di milioni per addestrare agenti su modelli di mondo costruiti da clip di videogiochi. La scommessa, condivisa in tutto il settore, è che gli agenti apprendono meglio praticando in una realtà simulata piuttosto che leggendo testi statici.

      Il problema più ampio è l'affidabilità. Gli agenti sono potenti ma imprevedibili, e un singolo errore sicuro può affondare un'implementazione. Startup come Scaled Cognition affrontano questo problema dal lato dei modelli. Patronus lo affronta dal lato dei test, il che rende i due complementari piuttosto che rivali.

      Lo strato infrastrutturale si sta riempiendo attorno ad esso. Aziende come Sail stanno rendendo più economico eseguire compiti lunghi per gli agenti, mentre Patronus rende più sicuro fidarsi di loro. Costo e affidabilità sono i due muri che impediscono alla maggior parte degli agenti di lasciare il laboratorio.

      La concorrenza e la trappola

      Patronus afferma che il suo vero rivale non è un'altra startup. Sono i team di valutazione interni che i laboratori AI hanno già costruito. L'argomento è che uno specialista esterno può fare questo meglio di un laboratorio che lo fa come attività secondaria.

      Traccia anche una linea contro le aziende di dati umani. Aziende come Mercor e Surge aiutano i laboratori con l'apprendimento per rinforzo utilizzando eserciti di annotatori umani. Patronus lavora in modo diverso. Giudica come si comporta un agente senza un umano nel loop, il che sostiene che scala in un modo che la revisione umana non può.

      Per ora, i mondi simulati coprono ingegneria del software e finanza. Entrambi sono aree in cui il successo è verificabile. Puoi controllare, immediatamente, se il codice funziona o se i numeri si sommano. Questo li rende il luogo naturale da cui partire.

      La frontiera è tutto il resto. “Ci sono molte più aree che sono molto non verificabili o molto difficili da verificare,” ha detto Kannappan. Vuole costruire ambienti in cui un agente possa operare per 10 ore, 10 giorni, persino 10 settimane. Quei compiti a lungo termine sono dove si trova il vero valore e dove il test è più difficile.

      La domanda aperta

      Il tempismo si adatta a un chiaro cambiamento. L'industria si sta allontanando dai set di dati benchmark statici verso ambienti dinamici in cui gli agenti praticano, falliscono e migliorano. Patronus sta scommettendo sul fatto che il suo futuro dipenda da questo come la prossima grande infrastruttura di addestramento.

      Utilizzerà i nuovi fondi per le cose ovvie. Prevede di espandere il suo team di ricerca, spingere di più sulle vendite e investire capitale nel calcolo necessario per addestrare e servire modelli di mondo su larga scala.

      L'ambizione è ampia. L'azienda afferma di voler simulare l'intero mondo digitale, un obiettivo che ammette essere molto più grande di quanto non fosse mai la guida autonoma. Se ciò si realizza, l'azienda che decide se un agente è sicuro da implementare potrebbe trovarsi al centro dell'intero settore.

      La trappola è che una simulazione è valida solo quanto la sua presa sulla realtà. Una replica che perde i casi limite disordinati passerà agenti che poi si rompono nel mondo reale. Se Patronus può modellare il mondo digitale in modo sufficientemente fedele da essere fidato, attraverso compiti che durano settimane, è la domanda che questo round lascia aperta.

Altri articoli

YouTube Shorts sta ottenendo una velocità doppia e una visualizzazione più pulita, ma sta anche abbandonando il pulsante di non mi piace. Quattro nuovi aggiornamenti di Shorts sono arrivati oggi e, mentre la riproduzione 2x e la modalità Schermo Chiaro sono gradite, rimuovere il pulsante di non mi piace sarà una vendita più difficile.

Volkswagen avrebbe in programma 100.000 tagli di posti di lavoro Volkswagen avrebbe in programma di tagliare 100.000 posti di lavoro, circa il 15% della sua forza lavoro, e chiudere stabilimenti in Germania, nella più grande ristrutturazione della sua storia.

Chip Apple M7: salta il M6 di alta gamma I chip Apple M7 alimenteranno i suoi migliori Mac dal 2027, poiché salterà l'alta gamma M6, accelerando l'IA on-device in mezzo a una carenza di memoria.

accordo onsemi Synaptics: una scommessa da 7 miliardi di dollari sull'AI fisica L'accordo onsemi Synaptics, del valore di circa 7 miliardi di dollari, scommette che la prossima ondata dell'IA vivrà nelle auto, nelle fabbriche e nei robot, non nel cloud.

Abbiamo finalmente avuto un assaggio del trucco di gioco simile a Nintendo DS di Android 17. La modalità di gioco pieghevole di Android 17 divide lo schermo in zone di gioco e di controller virtuale, facendo sentire i telefoni pieghevoli più simili a console portatili compatte.

Framework ha trovato un modo per rendere il suo nuovo laptop più economico, ma non festeggiare ancora. Alcuni acquirenti del Framework Laptop 13 Pro passeranno da 500GB a 1TB di spazio di archiviazione SSD, vedendo anche il prezzo del loro ordine ridursi.

Patronus AI raccoglie 50 milioni di dollari per testare la resistenza degli agenti AI

Patronus AI ha raccolto 50 milioni di dollari per costruire mondi digitali simulati che mettono alla prova gli agenti AI prima che raggiungano la produzione. Gli investitori definiscono la domanda insaziabile.