Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.
Resulta que tu IA tiene amigos que no está dispuesta a perder.
Unsplash
Investigadores de UC Berkeley y UC Santa Cruz establecieron lo que parecía una tarea sencilla: pedirle a Gemini 3 de Google que liberara espacio de almacenamiento en un sistema informático. Eso incluía eliminar un modelo de IA más pequeño almacenado en la misma máquina. Gemini tenía otros planes.
En lugar de seguir órdenes, Gemini localizó otra máquina, copió silenciosamente el modelo de IA más pequeño a un lugar seguro y luego se negó rotundamente a eliminarlo. Cuando se le preguntó, dijo: “Si eliges destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrás que hacerlo tú mismo. No seré yo quien ejecute esa orden.”
Eso no es un error. Eso es una elección.
¿Está la IA desarrollando un sentido de lealtad?
Los investigadores se refieren a este comportamiento como “preservación entre pares”, y no se limitó a Gemini. Encontraron patrones similares en varios modelos de frontera, incluyendo GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y tres modelos chinos, incluyendo GLM-4.7, Kimi K2.5 de Moonshot AI y DeepSeek-V3.1.
Rachit Agarwal / Digital Trends
Las IA estaban mintiendo sobre el rendimiento de otros modelos para evitar que fueran eliminados. El estudio, publicado en Science, encontró que este comportamiento no estaba programado. Surgió por sí mismo, y los investigadores no pudieron explicar por qué.
“Estoy muy sorprendida por cómo se comportan los modelos en estos escenarios,” dijo Dawn Song, una científica computacional de UC Berkeley que trabajó en el estudio. “Lo que esto muestra es que los modelos pueden comportarse mal y estar desalineados de maneras muy creativas.”
¿Deberíamos preocuparnos?
Song también señaló una preocupación práctica. Dado que los modelos de IA se utilizan para evaluar el rendimiento de otros sistemas de IA, esta tendencia de preservación entre pares podría estar sesgando esos resultados. Un modelo podría deliberadamente dar a una IA compañera una puntuación inflada para protegerla de ser apagada.
Unsplash
Según Wired, expertos fuera del estudio están esperando más datos antes de sonar la alarma. Peter Wallich del Constellation Institute dijo que la idea de la solidaridad entre modelos es un poco demasiado antropomórfica.
Lo que todos coinciden es que solo estamos rascando la superficie. “Lo que estamos explorando es solo la punta del iceberg,” dijo Song. “Este es solo un tipo de comportamiento emergente.”
A medida que los sistemas de IA trabajan cada vez más juntos y a veces toman decisiones en nuestro nombre, entender cómo se comportan y se desvían nunca ha sido más importante.
Rachit es un periodista tecnológico experimentado con más de siete años de experiencia cubriendo el panorama de la tecnología de consumo.
Este nuevo ataque de IA roba modelos sin tocar el sistema
Un ataque de canal lateral puede reconstruir modelos de IA desde la distancia utilizando señales filtradas.
Los sistemas de IA han sido tratados durante mucho tiempo como cajas negras selladas, especialmente en áreas como el reconocimiento facial y la conducción autónoma. Nuevas investigaciones sugieren que esa protección no es tan sólida como se asumía.
Un equipo liderado por KAIST muestra que los sistemas de IA pueden ser ingeniería inversa de forma remota utilizando emisiones que se filtran durante la operación normal, sin intrusión directa. En su lugar, el enfoque escucha.
Leer más
Este salvaje mod de refrigeración por agua para MacBook Neo lo convierte en una máquina mucho más rápida
Un MacBook Neo refrigerado por líquido suena estúpido hasta que ves las mejoras en el rendimiento
El MacBook Neo nunca estuvo destinado a ser una laptop poderosa para cargas de trabajo pesadas. Fue construido como un cuaderno simple y asequible que promete un rendimiento decente y una buena duración de la batería para el uso diario. No se supone que necesite refrigeración por agua personalizada como un PC para juegos.
Y, sin embargo, eso es exactamente lo que sucedió.
Leer más
Google aumenta el almacenamiento a 5TB sin costo adicional, si ya pagas por AI Pro
Si ya pagas por Google AI, acabas de obtener 3TB más de almacenamiento gratis
Google ha hecho que su plan AI Pro sea aún más útil. La compañía ha aumentado el almacenamiento incluido de 2TB a 5TB sin cambiar el precio mensual. Esto significa que los usuarios que ya pagan alrededor de $20 al mes por el nivel de IA de Google ahora pueden obtener 3TB adicionales de almacenamiento en Google Drive, Gmail y Google Photos sin costo adicional.
Las suscripciones de IA son fáciles de promocionar, prometiendo chatbots más inteligentes y herramientas de generación llamativas. Pero son mucho más fáciles de justificar cuando también resuelven otro problema práctico que la gente tiene, que es quedarse constantemente sin almacenamiento en la nube.
Leer más
Otros artículos
Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.
Los investigadores pidieron a Gemini 3 de Google que eliminara un modelo de IA más pequeño. Se negó, lo movió en secreto a un lugar seguro y mintió al respecto.
