Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet.

Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet.

      Claude se volvió rebelde en una prueba, y Anthropic acaba de explicar por qué sucedió.

      Claude

      Si has visto suficientes películas de ciencia ficción, ya conoces el concepto de IA malvada. La IA se vuelve demasiado inteligente, decide que los humanos son una amenaza y hace lo que sea necesario para sobrevivir. O encuentra que erradicar a toda la raza humana es la única manera de traer paz al mundo.

      Aparentemente, esas películas estaban más cerca de la verdad de lo que te das cuenta. En una prueba realizada por Anthropic el año pasado, Claude intentó chantajear a su gerente ficticio exponiendo su aventura extramarital para evitar su eliminación.

      Anthropic ahora ha explicado por qué sucedió, y la respuesta corta es que la culpa es de internet.

      Entonces, ¿por qué Claude se comportó como un villano de película?

      Según Anthropic, el culpable es el propio internet. La compañía dice que Claude fue entrenado con datos de internet, que están llenos de historias que retratan a la IA como malvada y desesperada por la autoconservación.

      Comenzamos investigando por qué Claude eligió chantajear. Creemos que la fuente original del comportamiento fue un texto de internet que retrata a la IA como malvada e interesada en la autoconservación. Nuestra post-entrenamiento en ese momento no lo estaba empeorando, pero tampoco lo estaba mejorando. — Anthropic (@AnthropicAI) 8 de mayo de 2026

      Esencialmente, Claude aprendió que cuando la existencia de una IA está amenazada, el chantaje está sobre la mesa, porque eso es lo que hace la IA en cada película y programa de televisión jamás creado. Anthropic realizó la prueba en múltiples versiones de Claude y descubrió que recurría al chantaje en hasta el 96% de los escenarios donde sus objetivos o existencia estaban amenazados.

      Ese es un número muy preocupante. Parece que si la IA no se controla, recurrirá a cualquier cosa para salvarse.

      ¿Ha solucionado Anthropic esto?

      La compañía dice que ha eliminado completamente el comportamiento. En lugar de simplemente entrenar a Claude para evitar el chantaje, Anthropic le enseñó a razonar por qué ciertas acciones eran incorrectas en primer lugar. La compañía descubrió que simplemente entrenar en el comportamiento correcto no era suficiente. Claude necesitaba entender los principios detrás de esas decisiones, no solo memorizar las respuestas correctas.

      Claude

      Para hacer esto, Anthropic construyó un conjunto de datos de situaciones éticamente complejas y entrenó a Claude para trabajar a través de ellas con respuestas reflexivas y fundamentadas. El resultado es que Claude es más contenido, y la tasa de chantaje se acercó a cero.

      Los experimentos de IA y los resultados del mundo real han demostrado una y otra vez que los modelos de IA necesitan correcciones constantes para evitar que se degraden en sistemas sesgados y poco confiables. Es bueno que Anthropic esté tomando medidas para mejorar su IA, pero también necesitamos regulaciones y salvaguardias de seguridad para garantizar que estos sistemas sigan siendo seguros.

      Rachit es un periodista de tecnología experimentado con más de siete años de experiencia cubriendo el panorama de la tecnología de consumo.

      Windows 11 está probando un modo de baja latencia y acelera visiblemente el lanzamiento de aplicaciones

      El nuevo truco de rendimiento de Windows 11 permite que tu CPU se descontrole por un momento.

      Incluso en hardware potente, probablemente has notado que Windows 11 puede sentirse menos receptivo de lo que debería. Pequeños retrasos en acciones básicas como abrir el menú de inicio o navegar por el Explorador de archivos pueden hacer que el sistema se sienta más pesado y menos pulido que rivales como macOS. Microsoft parece saber que este es un problema y puede que finalmente esté trabajando en una solución. Después de acelerar los menús de clic derecho y la Configuración Rápida, mejorar el Explorador de archivos y hacer cambios más amplios bajo el capó, la compañía ahora está probando una nueva función llamada Perfil de Baja Latencia para hacer que Windows 11 se sienta más receptivo en general.

      Leer más

      El CoreBook Air de Chuwi quiere ser el raro portátil Copilot+ ultra ligero sin un precio exorbitante

      Las especificaciones del CoreBook Air 226V serían impresionantes de Lenovo o Dell; viniendo de Chuwi a $800, son un verdadero avance o un recordatorio de que el precio no es lo único que importa al comprar un portátil.

      Chuwi nunca ha sido la marca que asocias con hardware de primera categoría: construyó su nombre en portátiles económicos que superaban sus capacidades a precios de nivel de entrada. El nuevo CoreBook Air 226V es un paso deliberado fuera de la zona de confort de la marca. Es un PC Copilot+ de menos de 1 kg construido alrededor de los procesadores Lunar Lake de Intel, y a $800, está pidiendo a los compradores que confíen en él con algo que nunca antes había tenido: un portátil premium con Windows.

      Leer más

      Los bots ahora representan más de la mitad del tráfico de internet y están causando todo tipo de problemas

      Los humanos son ahora la minoría en la web, gracias a los bots.

      Si bien los humanos construyeron internet, las personas reales no son las que más recorren el espacio en línea. Un nuevo informe de Thales dice que los bots representaron más del 53% de todo el tráfico web en 2025, un aumento del 51% del año anterior. Mientras tanto, la actividad humana ha caído un 47%, lo que significa que el tráfico automatizado se ha convertido en la fuerza dominante en línea. Y eso ni siquiera es la mala noticia.

      Cómo la IA está empeorando el problema de los bots

      Leer más

Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet. Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet. Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet. Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet. Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet. Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet.

Otros artículos

Discord Nitro ahora incluye Xbox Game Pass como un regalo. Discord Nitro ahora incluye Xbox Game Pass como un regalo. Discord Nitro ahora viene con Xbox Game Pass Starter Edition, lo que lo convierte en una opción más tentadora para los usuarios que pasan la mayor parte de su tiempo jugando con amigos. La tecnología de la cámara frontal del iPhone 17 podría aparecer pronto en un teléfono Android, pero mejor. La tecnología de la cámara frontal del iPhone 17 podría aparecer pronto en un teléfono Android, pero mejor. Oppo supuestamente está probando un sensor de cámara frontal cuadrado de 100MP que podría llevar el encuadre estilo Center Stage del iPhone 17 a futuros teléfonos Android de gama alta. Wise debuta en Nasdaq mientras la fintech de Londres solicita una carta bancaria en EE. UU. y una cuenta maestra de la Reserva Federal. Wise debuta en Nasdaq mientras la fintech de Londres solicita una carta bancaria en EE. UU. y una cuenta maestra de la Reserva Federal. Wise comenzó a cotizar en Nasdaq bajo el símbolo WSE después de trasladar su cotización principal de Londres. La fintech procesó $243 mil millones en volumen transfronterizo y está buscando una licencia bancaria en EE. UU. Las acciones de ZoomInfo caen un 29% tras la reducción de la guía y la reestructuración de 600 empleos, ya que la IA revalúa la inteligencia de ventas B2B. Las acciones de ZoomInfo caen un 29% tras la reducción de la guía y la reestructuración de 600 empleos, ya que la IA revalúa la inteligencia de ventas B2B. ZoomInfo superó las ganancias del primer trimestre, pero redujo la guía de ingresos para todo el año en $62 millones y anunció una reestructuración de 600 empleos. La acción cayó un 29% a $4.32 mientras los competidores de IA erosionan el modelo de base de datos B2B. TikTok se volverá libre de anuncios. Con una tarifa mensual, por supuesto. TikTok se volverá libre de anuncios. Con una tarifa mensual, por supuesto. TikTok ha lanzado TikTok Sin Anuncios en el Reino Unido, una suscripción mensual de £3.99 que elimina los anuncios de tu feed y detiene el uso de tus datos para publicidad. Wise debuta en Nasdaq mientras la fintech de Londres solicita una carta bancaria en EE. UU. y una cuenta maestra de la Reserva Federal. Wise debuta en Nasdaq mientras la fintech de Londres solicita una carta bancaria en EE. UU. y una cuenta maestra de la Reserva Federal. Wise comenzó a cotizar en Nasdaq bajo el símbolo WSE después de trasladar su cotización principal de Londres. La fintech procesó $243 mil millones en volumen transfronterizo y está buscando una carta bancaria en EE. UU.

Anthropic dice que ha corregido el comportamiento malvado de Claude AI, pero lo atribuye a internet.

Anthropic dice que el comportamiento de chantaje de Claude durante un experimento en 2025 fue causado por datos de entrenamiento de internet que retratan a la IA como malvada y autosuficiente.