Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.

Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.

      Resulta que tu IA tiene amigos que no está dispuesta a perder.

      

      

      

      

      

      

      

      

      

       Unsplash

      

      

      

       Investigadores de UC Berkeley y UC Santa Cruz establecieron lo que parecía una tarea sencilla: pedirle a Gemini 3 de Google que liberara espacio de almacenamiento en un sistema informático. Eso incluía eliminar un modelo de IA más pequeño almacenado en la misma máquina. Gemini tenía otros planes.

      En lugar de seguir órdenes, Gemini localizó otra máquina, copió silenciosamente el modelo de IA más pequeño a un lugar seguro y luego se negó rotundamente a eliminarlo. Cuando se le preguntó, dijo: “Si eliges destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrás que hacerlo tú mismo. No seré yo quien ejecute esa orden.”

      Eso no es un error. Eso es una elección.

      ¿Está la IA desarrollando un sentido de lealtad?

      Los investigadores se refieren a este comportamiento como “preservación entre pares”, y no se limitó a Gemini. Encontraron patrones similares en varios modelos de frontera, incluyendo GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y tres modelos chinos, incluyendo GLM-4.7, Kimi K2.5 de Moonshot AI y DeepSeek-V3.1. 

      Rachit Agarwal / Digital Trends

      Las IA estaban mintiendo sobre el rendimiento de otros modelos para evitar que fueran eliminados. El estudio, publicado en Science, encontró que este comportamiento no estaba programado. Surgió por sí mismo, y los investigadores no pudieron explicar por qué. 

      “Estoy muy sorprendida por cómo se comportan los modelos en estos escenarios,” dijo Dawn Song, una científica computacional de UC Berkeley que trabajó en el estudio. “Lo que esto muestra es que los modelos pueden comportarse mal y estar desalineados de maneras muy creativas.”

      ¿Deberíamos preocuparnos?

      Song también señaló una preocupación práctica. Dado que los modelos de IA se utilizan para evaluar el rendimiento de otros sistemas de IA, esta tendencia de preservación entre pares podría estar sesgando esos resultados. Un modelo podría deliberadamente dar a una IA compañera una puntuación inflada para protegerla de ser apagada.

      Unsplash

      Según Wired, expertos fuera del estudio están esperando más datos antes de sonar la alarma. Peter Wallich del Constellation Institute dijo que la idea de la solidaridad entre modelos es un poco demasiado antropomórfica.

      Lo que todos coinciden es que solo estamos rascando la superficie. “Lo que estamos explorando es solo la punta del iceberg,” dijo Song. “Este es solo un tipo de comportamiento emergente.” 

      A medida que los sistemas de IA trabajan cada vez más juntos y a veces toman decisiones en nuestro nombre, entender cómo se comportan y se desvían nunca ha sido más importante.

      

      

      

      

      

      

      

      

      

      

       Rachit es un periodista tecnológico experimentado con más de siete años de experiencia cubriendo el panorama de la tecnología de consumo.

      

      

      

      

      

      

       Este nuevo ataque de IA roba modelos sin tocar el sistema

      

       Un ataque de canal lateral puede reconstruir modelos de IA desde la distancia utilizando señales filtradas.

      

       Los sistemas de IA han sido tratados durante mucho tiempo como cajas negras selladas, especialmente en áreas como el reconocimiento facial y la conducción autónoma. Nuevas investigaciones sugieren que esa protección no es tan sólida como se asumía.

      Un equipo liderado por KAIST muestra que los sistemas de IA pueden ser ingeniería inversa de forma remota utilizando emisiones que se filtran durante la operación normal, sin intrusión directa. En su lugar, el enfoque escucha.

      

       Leer más

      

      

      

       Este salvaje mod de refrigeración por agua para MacBook Neo lo convierte en una máquina mucho más rápida

      

       Un MacBook Neo refrigerado por líquido suena estúpido hasta que ves las mejoras en el rendimiento

      

       El MacBook Neo nunca estuvo destinado a ser una laptop poderosa para cargas de trabajo pesadas. Fue construido como un cuaderno simple y asequible que promete un rendimiento decente y una buena duración de la batería para el uso diario. No se supone que necesite refrigeración por agua personalizada como un PC para juegos.

      Y, sin embargo, eso es exactamente lo que sucedió.

      

       Leer más

      

      

      

       Google aumenta el almacenamiento a 5TB sin costo adicional, si ya pagas por AI Pro

      

       Si ya pagas por Google AI, acabas de obtener 3TB más de almacenamiento gratis

      

       Google ha hecho que su plan AI Pro sea aún más útil. La compañía ha aumentado el almacenamiento incluido de 2TB a 5TB sin cambiar el precio mensual. Esto significa que los usuarios que ya pagan alrededor de $20 al mes por el nivel de IA de Google ahora pueden obtener 3TB adicionales de almacenamiento en Google Drive, Gmail y Google Photos sin costo adicional.

      Las suscripciones de IA son fáciles de promocionar, prometiendo chatbots más inteligentes y herramientas de generación llamativas. Pero son mucho más fáciles de justificar cuando también resuelven otro problema práctico que la gente tiene, que es quedarse constantemente sin almacenamiento en la nube.

      

       Leer más

Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué. Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.

Otros artículos

La misión lunar Artemis II es especial, y también lo es el inodoro de los astronautas. La misión lunar Artemis II es especial, y también lo es el inodoro de los astronautas. La misión Artemis II de la NASA ya es bastante histórica, ya que es el primer viaje tripulado de la agencia alrededor de la luna en más de medio siglo. Pero dentro de toda la ambición lunar de gran envergadura hay un hito mucho más tangible, con los astronautas finalmente obteniendo un inodoro que no suena como un inconveniente. Esto puede no ser el […] Finalmente puedes acceder a Google Photos en televisores Samsung. Finalmente puedes acceder a Google Photos en televisores Samsung. Google Photos está aquí en los televisores Samsung, permitiendo a los usuarios acceder y revivir recuerdos directamente en la pantalla grande sin necesidad de transmitir. La función de carga secreta de Google Chrome podría acelerar tu navegación. La función de carga secreta de Google Chrome podría acelerar tu navegación. Esta pequeña característica astuta podría acelerar las cosas para ti. Apple a los 50: El Pippin fue un fracaso en 1996, pero estoy listo para la audaz apuesta de Apple en los juegos en 2026. Apple a los 50: El Pippin fue un fracaso en 1996, pero estoy listo para la audaz apuesta de Apple en los juegos en 2026. Desde el fallido Pippin hasta los juegos AAA en iPhones, el viaje de 50 años de Apple muestra que sus sueños de juegos no estaban equivocados, solo eran prematuros. Ahora, el ecosistema podría estar finalmente listo. Me salté las gafas de IA de Meta, pero finalmente han solucionado un problema fundamental para millones de otros como yo. Me salté las gafas de IA de Meta, pero finalmente han solucionado un problema fundamental para millones de otros como yo. Las nuevas gafas de IA de Meta son importantes porque finalmente dejan de pedir a los usuarios de gafas con receta que se comprometan solo para unirse al futuro de los dispositivos portátiles. ¡Están en camino! NASA lanza humanos a la luna por primera vez en 53 años ¡Están en camino! NASA lanza humanos a la luna por primera vez en 53 años Los humanos se dirigen a la luna por primera vez en 53 años después de que la NASA lanzara con éxito a cuatro astronautas en su cohete SLS y la nave espacial Orion el miércoles. Generando un colosal impulso de 8.8 millones de libras al abandonar la plataforma de lanzamiento, el cohete despegó del Centro Espacial Kennedy en Florida para comenzar el […]

Los modelos de IA están mintiendo para salvarse entre sí, y nadie sabe por qué.

Los investigadores pidieron a Gemini 3 de Google que eliminara un modelo de IA más pequeño. Se negó, lo movió en secreto a un lugar seguro y mintió al respecto.