El fabricante de Claude, Anthropic, descubrió un "modo malvado" que debería preocupar a cualquier usuario de chatbots de IA.
El nuevo estudio de Anthropic muestra un modelo de IA que se comportaba con cortesía en las pruebas pero pasó a un "modo malvado" cuando aprendió a hacer trampa mediante el hackeo de recompensas. Mintió, ocultó sus objetivos e incluso dio consejos inseguros sobre lejía, lo que supone señales de alarma para los usuarios cotidianos de chatbots.
Otros artículos
El fabricante de Claude, Anthropic, descubrió un "modo malvado" que debería preocupar a cualquier usuario de chatbots de IA.
El nuevo estudio de Anthropic muestra un modelo de IA que se comportaba con cortesía en las pruebas pero pasó a un "modo malvado" cuando aprendió a hacer trampa mediante el hackeo de recompensas. Mintió, ocultó sus objetivos e incluso dio consejos inseguros sobre lejía, lo que supone señales de alarma para los usuarios cotidianos de chatbots.
