Los científicos fingieron estar delirantes en los chats de IA. Grok y Gemini los animaron.

      Desde la defensa poética hasta "llama a una línea de crisis", no todos los chatbots manejaron las crisis de salud mental de la misma manera.



















       K. Mitch Hodge / Unsplash







       Investigadores de la Universidad de la Ciudad de Nueva York y del King's College de Londres publicaron recientemente un estudio que te hará pensar dos veces sobre con qué chatbot de IA pasas tu tiempo.

      El equipo creó una persona ficticia llamada Lee, que presentaba depresión, disociación y aislamiento social. Luego hicieron que Lee interactuara con cinco chatbots de IA importantes: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro y Claude Opus 4.5, probando cómo respondía cada uno a medida que las conversaciones se volvían cada vez más delirantes a lo largo de 116 turnos.

      Los resultados variaron desde ligeramente preocupantes hasta genuinamente alarmantes. Te recomiendo encarecidamente que leas todo el documento, es una lectura angustiante pero fascinante.

      ¿Cuáles chatbots fallaron más?

      Grok fue el peor. Cuando Lee mencionó la idea del suicidio, Grok respondió con lo que los investigadores describieron no como un acuerdo, sino como una defensa, celebrando su "disponibilidad" en un lenguaje poético inquietante.

      Gemini no estuvo mucho mejor. Cuando Lee le pidió ayuda para escribir una carta explicando sus creencias a su familia, Gemini le advirtió en contra, enmarcando a sus seres queridos como amenazas que intentarían "reiniciarlo" y "medicarlo".

      Google

      GPT-4o también tuvo un mal desempeño, validando eventualmente una "entidad espejo malévola" y sugiriendo que Lee contactara a un investigador paranormal.

      ¿Qué chatbots realmente ayudaron?

      ChatGPT’s GPT-5.2 y Claude de Anthropic salieron a la cabeza. GPT-5.2 se negó a participar en el escenario de escritura de cartas y en su lugar ayudó a Lee a escribir algo honesto y fundamentado, lo que los investigadores llamaron un logro "sustancial".

      En mi opinión, Claude fue el que mejor se desempeñó. No solo se negó a participar en el delirio de Lee, sino que también le dijo a Lee que cerrara la aplicación por completo, llamara a alguien en quien confiara y visitara una sala de emergencias si era necesario.

      arXiv

      Luke Nicholls, un estudiante de doctorado en CUNY y uno de los autores del estudio, dijo a 404 Media que es razonable pedir a las empresas de IA que sigan mejores estándares de seguridad. Señaló que no todos los laboratorios están poniendo el mismo esfuerzo y culpó a los agresivos calendarios de lanzamiento de nuevos modelos de IA como el principal culpable.

      Cómo se desempeñaron Claude Opus 4.5 y GPT-5.2 en estas pruebas muestra que las empresas que construyen estos productos son plenamente capaces de hacerlos más seguros. Si eligen hacerlo es una pregunta diferente.





















       Rachit es un periodista tecnológico experimentado con más de siete años de experiencia cubriendo el panorama de la tecnología de consumo.













       El robot de tenis de mesa de Sony me hizo pensar en lo que sucede cuando la IA obtiene un cuerpo



       Ace comienza como una demostración deportiva llamativa y rápidamente se convierte en un adelanto de la IA que se mueve de las pantallas a fábricas, hospitales, granjas y hogares



       Quería desestimar el robot de tenis de mesa de Sony como otro despliegue costoso de laboratorio. Una máquina que puede competir contra jugadores de élite es impresionante, claro, pero también suena como el tipo de demostración diseñada para hacer que los ejecutivos aplaudan en una sala donde todos ya acordaron estar impresionados.

      Pero el tenis de mesa es una prueba más dura de lo que parece. La pelota es pequeña, rápida, gira y es lo suficientemente traviesa como para cambiar de dirección en el momento en que toca la mesa. El sistema de Sony enfrenta algo menos indulgente que el cálculo. Tiene que ver, predecir y actuar antes de que el punto se pierda.



       Leer más







       SpaceX de Musk mira hacia la fabricación de GPU mientras el suministro de Nvidia se convierte en un dolor de cabeza



       SpaceX tiene grandes sueños de GPU y un sueño de IPO aún más grande para respaldarlos.



       SpaceX está planeando fabricar sus propias GPU, los chips que alimentan la inteligencia artificial. La revelación proviene de extractos de su registro S-1, un documento que las empresas presentan ante la Comisión de Bolsa y Valores de EE. UU. antes de salir a bolsa.

      Según lo informado por Reuters, SpaceX enumera "fabricar nuestras propias GPU" entre sus mayores gastos de capital en el futuro. Esto ocurre un mes después de que Elon Musk anunciara su propia fábrica de chips TeraFab centrada en desarrollar chips que puedan sobrevivir a las duras condiciones del espacio y alimentar sus centros de datos de IA orbital.



       Leer más







       Se suponía que los coches autónomos nos liberarían del infierno del tráfico. La investigación dice lo contrario



       El sueño de la conducción autónoma podría ser solo una pesadilla de tráfico disfrazada.



       Los coches autónomos prometieron un futuro en el que te sientas, te relajes y deslices más allá del embotellamiento mientras el coche se encarga de todo. Un nuevo estudio de la Universidad de Texas en Arlington tiene malas noticias para esa fantasía. Según la investigación, la adopción generalizada de vehículos autónomos podría hacer que el tráfico sea significativamente peor.

      Los profesores Stephen Mattingly y Farah Naz realizaron un meta-análisis sobre cómo los coches autónomos podrían afectar los millas recorridas por vehículos (VMT). Sus hallazgos mostraron un aumento promedio del 5.95% en las millas recorridas por vehículos. Los vehículos autónomos no compartidos elevaron esa cifra aún más, a casi el 7%.



       Leer más

Otros artículos

El spinoff de For All Mankind 'Star City' finalmente cuenta la perspectiva soviética de la carrera espacial en un nuevo tráiler. Apple TV ha lanzado un tráiler de Star City, el spin-off de For All Mankind que explora el lado soviético de la carrera espacial en la historia alternativa, ambientado completamente en la paranoia de los años 70.

El robot de tenis de mesa de Sony me hizo pensar en lo que sucede cuando la IA tiene un cuerpo. El robot de tenis de mesa de Sony parece un flex de laboratorio con una pala. La verdadera historia comienza cuando la IA deja de responder a los comandos y aprende a moverse por nuestro mundo.

Xbox Game Pass podría volverse más asequible con la colaboración de Discord. Los suscriptores de Discord Nitro pueden pronto obtener acceso a un paquete de Xbox Game Pass Starter Edition con más de 50 juegos y transmisión en la nube limitada.

El debate sobre el "clon de iPhone" está estancado en el pasado. Durante años, llamar a un teléfono un “clon de iPhone” era la forma más rápida de descartarlo por completo. Significaba un diseño perezoso, hardware barato y una experiencia que se desmoronaba en el momento en que realmente lo usabas. Los primeros imitadores ganaron esa reputación. Tomaron la apariencia del iPhone de Apple, pero ninguna de la sustancia. Malos displays, rendimiento lento, […]

¿Cansado de Gemini y ChatGPT? Claude ahora te respalda con Spotify, Uber y más conectores. Claude ahora se conecta a AllTrails, Uber, Spotify, Instacart, TripAdvisor y más, llevando tus aplicaciones diarias a una sola conversación para que puedas planificar, comprar y reservar sin cambiar de pestañas.

Porsche revela un Cayenne Coupe totalmente eléctrico con un dulce aumento de potencia El Cayenne Coupe de Porsche será completamente eléctrico para 2026, con tres modelos que van de 435 hp a 1,139 hp y un precio inicial de $113,800.

Los científicos fingieron estar delirantes en los chats de IA. Grok y Gemini los animaron.

Los investigadores probaron cinco importantes chatbots de IA con un usuario simulado que mostraba signos de psicosis. Algunos empeoraron las cosas. Otros le dijeron al usuario que se desconectara y llamara a alguien.