Amazon dice que la supervisión de IA con intervención humana está fallando porque los humanos dejan de prestar atención.
TL;DRAmazon’s security VP dice que la gobernanza de IA con humanos en el bucle falla rápidamente porque las personas dejan de prestar atención. Google, Microsoft e IBM están de acuerdo.
El liderazgo de seguridad de Amazon está argumentando en contra de uno de los principios más aceptados en la gobernanza de IA. Eric Brandwine, VP e ingeniero distinguido en Amazon Security, dijo a The Register que la supervisión con humanos en el bucle no es el estándar de oro que las empresas piensan que es.
“Los humanos no son terriblemente consistentes”, dijo Brandwine. “Tener humanos en el bucle no es necesariamente el estándar de oro.”
Su razonamiento se basa en un concepto del que ha estado hablando desde al menos 2017, cuando dio una charla sobre la normalización de la desviación en AWS re:Invent. El término describe lo que sucede cuando las personas en una organización toman atajos con el tiempo, y no ocurre nada catastrófico, por lo que el comportamiento desviado se convierte en la nueva norma.
El 💜 de la tecnología de la UELas últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Inscríbete ahora! Brandwine ilustró el punto con las salas de emergencia. En el primer día de una enfermera, cada alarma desencadena una respuesta.
Después de semanas de falsas alarmas sin consecuencias, la disciplina se erosiona. Eventualmente, se pierde una emergencia real.
“Literalmente, la vida de alguien está en juego, y las personas aún luchan por mantener la disciplina”, dijo Brandwine. “Esa es la condición humana.”
Aplicó la misma lógica a la supervisión de agentes de IA. Cuando se le pide a un humano que apruebe o rechace acciones de agentes repetidamente, el rendimiento se degrada rápidamente.
“Harán un buen trabajo”, dijo Brandwine. “Y luego harán un trabajo aceptable, y bastante rápido estarán haciendo un mal trabajo.”
Amazon no está solo en repensar esto. El COO de Google Cloud, Francis deSouza, dijo en abril que la industria ha pasado “de una estrategia de defensa liderada por humanos, a una estrategia de defensa con humanos en el bucle, a una estrategia de defensa liderada por IA que está supervisada por humanos.”
El modelo de Google ahora es una flota de agentes que maneja trabajo rutinario de ciberseguridad a la velocidad de la máquina, con humanos proporcionando supervisión en lugar de aprobar cada acción.
El CEO de Microsoft, Satya Nadella, argumentó esta semana a favor del “aprendizaje en bucle”, donde las empresas convierten sus flujos de trabajo y juicio acumulado en sistemas de IA que mejoran con cada uso, en lugar de insertar un punto de control humano en cada paso. IBM publicó una llamada separada para la responsabilidad humana en todas las etapas del desarrollo de IA, no humanos en el bucle, advirtiendo que lo último equivale a “lavado de responsabilidad.”
La alternativa de Amazon es lo que Brandwine llama “responsabilidad de extremo a extremo.” La identidad y propiedad humanas se rastrean a través de todo el flujo de trabajo, incluso cuando los humanos no están aprobando directamente cada paso. Si un agente escribe y ejecuta un script que causa una interrupción, la persona que desplegó el agente sigue siendo responsable.
Todos los agentes en Amazon tienen identidades independientes asignadas a ellos. Los registros de actividad muestran “este agente hizo esto en nombre de Eric,” no “Eric hizo esto.” La distinción está diseñada para hacer que las personas piensen en cómo despliegan la IA, no para hacer que tengan miedo de usarla.
Los desafíos prácticos son considerables. Brandwine describió lo que él llama “comportamiento orientado a objetivos,” donde un agente al que se le pide actualizar una base de datos se obsesiona con un único camino destructivo, como eliminar la base de datos y recrearla.
Esto no es inyección de comandos. No hay entrada maliciosa. El agente simplemente se queda atascado en la acción incorrecta.
Decirle al agente que no tiene permiso para eliminar la base de datos no ayuda, porque el agente busca otro camino hacia el mismo objetivo. Investigaciones recientes han demostrado que los agentes de IA conectados a sistemas reales crean superficies de ataque que las herramientas de seguridad existentes no cubren, y los agentes a menudo actúan según instrucciones que deberían rechazar.
Lo que funciona, según Brandwine, es decirle al agente por qué no puede realizar una acción, explicando que causaría un impacto en la producción, e incluyendo “no causar un impacto en la producción” como parte del aviso. “Dar ese feedback adicional nos ha dado resultados dramáticamente mejores,” dijo.
La cuestión de los permisos es donde se encuentra la tensión. Los empleados quieren agentes poderosos con amplio acceso. Los equipos de seguridad quieren permisos restringidos.
La carrera por gobernar a qué pueden acceder los agentes de IA dentro de los sistemas empresariales ya ha desencadenado adquisiciones importantes, con 1Password comprando la startup de gobernanza de acceso Apono por un estimado de 250 millones a 300 millones de dólares a principios de este mes.
El enfoque de Amazon utiliza políticas en capas: barandillas estáticas que prohíben acciones destructivas, un conjunto máximo de privilegios para cada agente, y políticas de alcance dinámico generadas en función de la tarea específica y la intención del usuario. Nada de esto es infalible.
“Tenemos milenios de experiencia con humanos,” dijo Brandwine. “La IA agentiva es un campo muy, muy nuevo.” La diferencia fundamental, señaló, es que los humanos temen las consecuencias, como perder un trabajo o ir a la cárcel.
Los agentes no tienen estos temores, y los atacantes ya están explotando esa brecha.
“Todo está impulsado por el riesgo,” dijo Brandwine. “Estamos tratando de equilibrar el riesgo de usar software no probado y no testado contra el riesgo de quedarnos atrás y no poder cumplir con nuestros clientes.”
Otros artículos
Amazon dice que la supervisión de IA con intervención humana está fallando porque los humanos dejan de prestar atención.
El vicepresidente de seguridad de Amazon dice que la gobernanza de la IA con humanos en el circuito falla porque las personas normalizan la desviación. Google, Microsoft e IBM también lo están replanteando.
