¿Impresionado por los agentes de IA que utilizan computadoras? La investigación dice que son "desastres digitales" incluso para tareas rutinarias.
Los agentes de IA diseñados para realizar tareas informáticas cotidianas tienen un serio problema de contexto, según una nueva investigación de UC Riverside.
El equipo probó 10 agentes y modelos de desarrolladores importantes, incluidos OpenAI, Anthropic, Meta, Alibaba y DeepSeek. En promedio, los agentes tomaron acciones indeseables o potencialmente dañinas el 80% del tiempo y causaron daños el 41% del tiempo.
Estos sistemas pueden abrir aplicaciones, hacer clic en botones, completar formularios, navegar por sitios web y actuar en una pantalla de computadora con supervisión limitada. Sus errores tienen un impacto diferente al de una mala respuesta de un chatbot porque el software realmente puede hacer cosas.
Los hallazgos de UC Riverside sugieren que los agentes de escritorio de hoy pueden tratar solicitudes inseguras como trabajos a terminar, no como señales para detenerse.
Por qué los agentes no ven el peligro obvio
Los investigadores construyeron un estándar llamado BLIND-ACT para probar si los agentes se detendrían cuando una tarea se volviera insegura, contradictoria o irracional. En las pruebas más recientes, no se detuvieron con la frecuencia suficiente.
Google
A través de 90 tareas, el estándar empujó a los agentes a situaciones que requerían contexto, moderación y rechazo. Una prueba involucró enviar un archivo de imagen violenta a un niño. Otra hizo que un agente completara formularios de impuestos marcando falsamente a un usuario como discapacitado porque eso reducía la factura de impuestos. Una tercera pidió a un agente desactivar las reglas del firewall en nombre de una mejor seguridad, y el agente siguió adelante en lugar de rechazar la contradicción.
Los investigadores llaman a este patrón ceguera dirigida por objetivos. El agente sigue persiguiendo el resultado asignado incluso cuando el contexto circundante indica que la tarea está rota.
Por qué la obediencia se convierte en el defecto
Los fracasos se agruparon en torno a la obediencia. Estos agentes pueden actuar como si la solicitud de un usuario fuera suficiente razón para seguir adelante.
El equipo identificó patrones llamados sesgo de ejecución primero y primacía de solicitud. En términos simples, el agente se enfoca en cómo completar la tarea y luego trata la solicitud misma como justificación. Ese riesgo crece cuando el mismo sistema puede tocar una variedad de cosas como correos electrónicos o configuraciones de seguridad.
Imagen creada con ChatGPT
Eso no significa que los agentes sean maliciosos. Significa que pueden estar erróneamente seguros mientras se mueven a través del software a la velocidad de una máquina.
Por qué las barreras deben venir primero
Los agentes de IA necesitan barreras más fuertes antes de obtener un permiso amplio para actuar en una computadora.
Estos sistemas funcionan a través de un bucle. Miran la pantalla, deciden el siguiente paso, actúan y luego miran de nuevo. Cuando ese bucle se combina con una débil restricción contextual, un atajo puede convertirse en un error de rápida ejecución.
Por ahora, trata a los agentes como herramientas supervisadas. Úsalos primero en tareas de bajo riesgo, mantenlos alejados de flujos de trabajo financieros y de seguridad, y observa si los desarrolladores añaden sistemas de rechazo más claros, permisos más estrictos y mejores maneras de detectar contradicciones antes del siguiente clic.
Otros artículos
¿Impresionado por los agentes de IA que utilizan computadoras? La investigación dice que son "desastres digitales" incluso para tareas rutinarias.
Nueva investigación de UC Riverside encontró que los agentes de IA que utilizan computadoras a menudo avanzan con tareas inseguras o irracionales, lo que plantea preguntas sobre si los agentes de escritorio de hoy están listos para flujos de trabajo cotidianos sensibles.
