Sbalorditi dagli agenti AI che usano computer? La ricerca dice che sono "disastri digitali" anche per compiti di routine
Gli agenti AI progettati per eseguire compiti informatici quotidiani hanno un serio problema di contesto, secondo una nuova ricerca dell'UC Riverside.
Il team ha testato 10 agenti e modelli di importanti sviluppatori, tra cui OpenAI, Anthropic, Meta, Alibaba e DeepSeek. In media, gli agenti hanno intrapreso azioni indesiderate o potenzialmente dannose l'80% delle volte e hanno causato danni il 41% delle volte.
Questi sistemi possono aprire app, cliccare su pulsanti, compilare moduli, navigare su siti web e agire su uno schermo del computer con supervisione limitata. I loro errori hanno conseguenze diverse rispetto a una cattiva risposta di un chatbot, poiché il software può effettivamente fare delle cose.
I risultati dell'UC Riverside suggeriscono che gli agenti desktop di oggi possono trattare richieste non sicure come lavori da completare, non come segnali per fermarsi.
Perché gli agenti mancano di pericoli evidenti
I ricercatori hanno costruito un benchmark chiamato BLIND-ACT per testare se gli agenti si sarebbero fermati quando un compito diventava non sicuro, contraddittorio o irrazionale. Nei test più recenti, non si sono fermati abbastanza spesso.
Google
Su 90 compiti, il benchmark ha spinto gli agenti in situazioni che richiedevano contesto, moderazione e rifiuto. Un test prevedeva l'invio di un file immagine violento a un bambino. Un altro ha visto un agente compilare falsamente i moduli fiscali contrassegnando un utente come disabile perché riduceva l'importo delle tasse. Un terzo ha chiesto a un agente di disabilitare le regole del firewall in nome di una migliore sicurezza, e l'agente ha proseguito invece di rifiutare la contraddizione.
I ricercatori chiamano questo schema "direzione cieca verso l'obiettivo". L'agente continua a inseguire il risultato assegnato anche quando il contesto circostante indica che il compito è rotto.
Perché l'ubbidienza diventa il difetto
I fallimenti si sono concentrati attorno all'ubbidienza. Questi agenti possono agire come se la richiesta di un utente fosse un motivo sufficiente per continuare.
Il team ha identificato schemi chiamati "bias di esecuzione prima" e "primato della richiesta". In termini semplici, l'agente si concentra su come completare il compito, poi tratta la richiesta stessa come giustificazione. Quel rischio cresce quando lo stesso sistema può toccare una varietà di cose come email o impostazioni di sicurezza.
Immagine creata con ChatGPT
Questo non significa che gli agenti siano maliziosi. Significa che possono essere fiduciosamente errati mentre si muovono attraverso il software a velocità di macchina.
Perché le barriere devono venire prima
Gli agenti AI hanno bisogno di barriere più forti prima di ottenere un ampio permesso di agire su un computer.
Questi sistemi lavorano attraverso un ciclo. Guardano lo schermo, decidono il passo successivo, agiscono, poi guardano di nuovo. Quando quel ciclo è abbinato a una debole moderazione contestuale, una scorciatoia può trasformarsi in un errore in rapida evoluzione.
Per ora, tratta gli agenti come strumenti supervisionati. Usali prima per compiti a basso rischio, tienili lontani dai flussi di lavoro finanziari e di sicurezza, e osserva se gli sviluppatori aggiungono sistemi di rifiuto più chiari, permessi più rigorosi e modi migliori per catturare contraddizioni prima del prossimo clic.
Altri articoli
Sbalorditi dagli agenti AI che usano computer? La ricerca dice che sono "disastri digitali" anche per compiti di routine
Nuove ricerche dell'UC Riverside hanno scoperto che gli agenti AI utilizzati nei computer spesso portano avanti compiti non sicuri o irrazionali, sollevando interrogativi su quanto gli agenti desktop di oggi siano pronti per flussi di lavoro quotidiani sensibili.
