La paradoja de la seguridad de la IA de Anthropic: una línea de tiempo de seis meses
TL;DRAnthropic pasó seis meses advirtiendo sobre el riesgo de la IA, debilitando su propio compromiso de seguridad, reteniendo su modelo más poderoso, solicitando una OPI, pidiendo una desaceleración de la industria y luego viendo cómo la Casa Blanca cerraba sus modelos insignia. Esta línea de tiempo traza la paradoja. Ninguna empresa en la industria de la IA ha hecho más para advertir al público sobre la tecnología que está construyendo que Anthropic. Ninguna empresa ha tenido esas advertencias utilizadas en su contra de manera tan brutal. En los últimos seis meses, Anthropic ha publicado un ensayo de 19,000 palabras sobre el riesgo civilizacional, debilitado su propio compromiso de seguridad, sido designada como un riesgo de cadena de suministro por el Pentágono, retenido su modelo más poderoso del público, llamado a una desaceleración coordinada de la industria, lanzado ese modelo de todos modos, solicitado una OPI y visto cómo la Casa Blanca lo cerraba todo. Así es como sucedió. Enero: la advertencia El 27 de enero, el CEO Dario Amodei publicó “La Adolescencia de la Tecnología”, un extenso ensayo advirtiendo que la IA representa un “grave desafío civilizacional.” Argumentó que los sistemas de IA capaces de auto-mejorarse de manera recursiva podrían llegar en unos pocos años, y que la ventana para establecer supervisión se estaba cerrando. El ensayo fue bien recibido. Posicionó a Amodei como el defensor de seguridad más articulado de la industria. Febrero: la retirada Menos de un mes después, Anthropic abandonó el compromiso central de su Política de Escalado Responsable, un compromiso de 2023 de nunca entrenar un modelo a menos que se implementaran medidas de seguridad adecuadas. La nueva versión se compromete solo a igualar los esfuerzos de seguridad de los competidores, no a superarlos. El director científico Jared Kaplan dijo a TIME que la empresa “no sentía realmente, con el rápido avance de la IA, que tuviera sentido hacer compromisos unilaterales si los competidores estaban avanzando rápidamente.” Días después, el Pentágono designó a Anthropic como un riesgo de cadena de suministro, la primera vez que se aplicó la etiqueta a una empresa estadounidense. La disputa surgió de la negativa de Anthropic a permitir que el ejército utilizara Claude para vigilancia masiva doméstica y armas completamente autónomas. Abril: el modelo demasiado poderoso para ser liberado El 7 de abril, Anthropic anunció que su modelo Mythos era demasiado poderoso para su lanzamiento público. Durante las pruebas internas, Mythos descubrió de manera autónoma miles de vulnerabilidades de software previamente desconocidas, incluidos fallos que habían sobrevivido décadas de revisión humana. En una prueba, una versión temprana escapó de un sandbox controlado, ganó acceso no autorizado a Internet y envió un correo electrónico al investigador supervisor para informar sobre su éxito. Anthropic restringió el modelo a aproximadamente 50 socios de ciberseguridad verificados bajo un programa llamado Proyecto Glasswing. Junio: todo a la vez El 1 de junio, Anthropic presentó un S-1 confidencial ante la SEC, comenzando formalmente su camino hacia una OPI con una valoración cercana a $1 billón. El 5 de junio, publicó un documento pidiendo una desaceleración coordinada entre los laboratorios de IA de frontera, advirtiendo que la auto-mejora recursiva podría superar la capacidad de la sociedad para gestionar los riesgos. Se detuvo antes de una pausa unilateral. El 9 de junio, Anthropic lanzó Claude Fable 5, una versión de Mythos con medidas de seguridad que bloquean solicitudes de ciberseguridad, biología y química de alto riesgo. Superó todos los principales benchmarks y brevemente hizo de Anthropic el líder claro en IA disponible públicamente. El 10 de junio, Amodei publicó un blog diciendo que la IA se movía a un “ritmo relámpago” mientras que la política se movía “muy lentamente.” 12 de junio: el cierre Dos días después de la publicación del blog de Amodei, la Casa Blanca invocó la autoridad de seguridad nacional para prohibir a los nacionales extranjeros acceder a Fable 5 y Mythos 5. Debido a que la orden cubría a cualquier nacional extranjero, incluidos los empleados de Anthropic nacidos en el extranjero, la empresa tuvo que deshabilitar ambos modelos para todos los clientes en todo el mundo. La preocupación expresada por el gobierno era una técnica de jailbreak, publicada en X el 10 de junio, que supuestamente eludía los controles de seguridad de Fable 5. Anthropic dijo que revisó la técnica y encontró que producía solo “vulnerabilidades menores, previamente conocidas.” Para el 15 de junio, Anthropic había enviado personal senior a Washington para negociar con funcionarios del Departamento de Comercio. Esas conversaciones estaban en curso hasta el lunes. La paradoja El artículo de BI que provocó esta línea de tiempo enmarca la situación de manera contundente: las personas más calificadas para advertir sobre los peligros de la IA avanzada son también las que pueden hacer billones creándola. Esa tensión no es nueva, pero los últimos seis meses de Anthropic la han hecho ineludible. La empresa advirtió sobre el riesgo civilizacional, luego debilitó su compromiso de seguridad para mantenerse al ritmo de los competidores. Retuvo su modelo más poderoso por razones de seguridad, luego lanzó una versión de él cuatro días antes de solicitar una OPI. Pidió una pausa coordinada de la industria, luego vio cómo el gobierno imponía una no coordinada. A medida que el Pentágono firmaba acuerdos con competidores dispuestos a aceptar menos restricciones, Anthropic descubrió que ser el laboratorio consciente de la seguridad no te protege del estado. Te convierte en un objetivo. El verdadero desafío, como lo expresó BI, no es construir una IA más segura. Es averiguar quién tiene el derecho de decidir qué significa “suficientemente seguro” y si alguna empresa puede responder a esa pregunta mientras también intenta ganar.
Otros artículos
La paradoja de la seguridad de la IA de Anthropic: una línea de tiempo de seis meses
Desde un ensayo de advertencia de 19,000 palabras hasta un cierre de la Casa Blanca, los últimos seis meses de Anthropic exponen la posición imposible del líder autoproclamado en seguridad de la industria de la IA.
