Resulta que enseñar juegos como Battleship puede hacer que los pequeños modelos de IA sean mucho más inteligentes.

      Al convertir Battleship en un campo de entrenamiento de IA, los investigadores ayudaron a modelos más pequeños a razonar de manera más eficiente.

      Los investigadores del MIT utilizaron una configuración al estilo de Battleship para probar si los agentes de IA pueden mejorar la forma en que recopilan información antes de hacer un movimiento. El resultado fue un salto notable en el rendimiento de los sistemas más pequeños, incluido un modelo que pasó de rara vez vencer a humanos a ganar la mayoría de sus juegos después de que los investigadores cambiaron la forma en que buscaba en el tablero.

      Ese cambio ataca directamente una de las mayores debilidades de los agentes de IA actuales. A menudo se les pide que manejen tareas donde la respuesta depende de detalles que aún no tienen. El trabajo del MIT sugiere que una mejor planificación de preguntas puede hacer que un modelo más barato actúe de manera mucho más capaz.

      ¿Qué tan más inteligente se volvió?

      La prueba del MIT utilizó una versión de Battleship construida en torno a preguntas en lenguaje natural. Un agente de IA desempeñó el papel del compañero tratando de localizar barcos ocultos, mientras que otro tenía acceso al tablero y respondía.

      Digital Trends

      El mayor salto provino de Llama 4 Scout. El MIT dijo que el modelo más pequeño venció a los jugadores humanos en solo el 8% de los juegos al principio. Después de que los investigadores añadieron una estrategia de inferencia más deliberada, venció a los humanos el 82% de las veces y superó a un modelo de frontera más grande mientras operaba a aproximadamente el 1% del costo.

      Ese es el número a tener en cuenta si te importa el costo de la IA. El modelo no ganó al hacerse más grande, sino que ganó al elegir preguntas más precisas y hacer un mejor uso de cada respuesta.

      ¿Por qué ayuda Battleship a la IA a aprender?

      Battleship funciona como una prueba porque obliga a un agente de IA a actuar con información limitada. No puede ver todo el tablero, por lo que cada pregunta tiene que reducir la búsqueda y preparar el siguiente movimiento.

      Eso se alinea perfectamente con las herramientas de IA prácticas. Un bot de soporte, asistente de investigación o agente de planificación a menudo necesita hacer preguntas de seguimiento antes de poder ayudar. Cuando ese proceso se rompe, el modelo puede perder un detalle clave, repetirse o hacer una recomendación demasiado pronto.

      Fatemeh Rezvani / Unsplash

      El enfoque del MIT presiona ese punto débil. Mide si un agente puede recopilar la información correcta antes de producir una respuesta.

      ¿A dónde podría ir esto a continuación?

      La prueba más difícil es si el mismo enfoque funciona más allá de los juegos. Battleship es controlado, lo que lo hace más fácil de puntuar que los flujos de trabajo de agentes abiertos en búsqueda, soporte al cliente o software de oficina.

      Aun así, la dirección vale la pena seguir. Si los modelos más pequeños aprenden a hacer preguntas más precisas antes de actuar, las empresas podrían construir herramientas de IA más baratas que se sientan más capaces en el uso diario.

      El próximo hito es la transferencia del tablero de juego al trabajo real. Una tarea con instrucciones poco claras, archivos faltantes y un usuario apresurado será mucho más difícil de resolver.

      Paulo Vargas es un estudiante de inglés convertido en reportero convertido en escritor técnico, con una carrera que siempre ha vuelto a…

      Gemini podría pronto ofrecer un modo de solución de problemas y ahorrarte un viaje a los manuales de ayuda

      El nuevo modo de solución de problemas de Gemini ofrece soluciones paso a paso utilizando respuestas de texto y widgets interactivos

      Google puede haber mostrado accidentalmente a todos hacia dónde se dirige Gemini a continuación. Según TestingCatalog, un nuevo modo de solución de problemas ha aparecido silenciosamente dentro del menú de selección del modelo Gemini para algunos usuarios. Se encuentra junto a opciones existentes como Gemini 3.5 Flash y 3.1 Pro, que son los modelos de IA estándar entre los que ya cambias en la aplicación.

      Leer más

      Apple podría ofrecer MacBook Ultra en dos tamaños con una pantalla OLED única

      Un nuevo informe revela el tamaño de la pantalla del MacBook Ultra, la tecnología OLED y la ventana de lanzamiento

      El rumoreado MacBook Ultra de Apple se está perfilando como uno de los rediseños de Mac más significativos en años, y un nuevo informe de la industria sugiere que podría llegar antes de lo que cualquiera esperaba. La firma de investigación Omdia ha publicado un nuevo estudio sobre la adopción de OLED en laptops, y enterrados dentro de él hay algunos detalles muy específicos sobre el próximo MacBook de Apple. ¿Qué tamaños de pantalla tendrá el MacBook Ultra?

      Leer más

      Ahora puedes enviar correos electrónicos directamente desde ChatGPT en la web

      Ahora puedes redactar, editar y enviar correos electrónicos directamente dentro de ChatGPT en la web

      Si alguna vez has redactado un correo electrónico en ChatGPT y luego tuviste que copiarlo a Gmail u Outlook para enviarlo realmente, ahora puedes omitir ese paso adicional. OpenAI ha implementado la capacidad de enviar correos electrónicos directamente desde los bloques de escritura en ChatGPT en la web, manteniendo todo el proceso dentro de una sola conversación de principio a fin.

      Leer más

Otros artículos

iOS 27 podría cambiar la forma en que tu memoria muscular desliza las notificaciones en un teléfono. Uno de los cambios más pequeños rumoreados en iOS 27 podría terminar siendo uno de los más notables. Si es cierto, Apple podría estar pidiendo a millones de usuarios que vuelvan a aprender un deslizamiento que han estado haciendo durante años.

Google facilita seguir las travesuras en redes sociales de tus personalidades favoritas. Google está dando a los creadores un nuevo enfoque en la Búsqueda, y podría cambiar la forma en que sigues a tus personalidades en línea favoritas. La actualización trae una nueva forma de descubrir contenido sin saltar interminablemente entre aplicaciones.

El Siri de próxima generación en iOS 27 podría seguir lanzándose como una experiencia beta en los primeros días. La próxima generación de Siri de Apple podría llegar finalmente con iOS 27, pero un nuevo informe sugiere que los usuarios podrían recibir una versión incompleta al principio. Apple, según se informa, planea tratar al asistente más como una prueba continua que como un lanzamiento completamente pulido.

Las pantallas de los smartphones están a punto de entrar en un territorio de tasas de refresco ridículas, como los monitores de juegos. 120Hz alguna vez se sintió excesivo en un teléfono. Ahora, una nueva filtración sugiere que OnePlus podría estar persiguiendo tasas de refresco que suenan más en casa en un monitor de juegos que en un teléfono inteligente.

Steam Machine confirmado para llegar este verano, pero todavía estamos en la oscuridad sobre su precio. Valve dice que las Steam Machines se enviarán este verano, pero aún no ha revelado el precio. El nuevo programa Verificado ayuda a explicar el soporte de juegos, mientras los compradores esperan los detalles que afectan la decisión de actualización.

Esta IA puede distinguir una reseña en línea real de una falsa, y es sorprendentemente precisa. Un nuevo sistema de IA combina texto, imágenes y el comportamiento de los revisores para detectar reseñas falsas en línea con más del 94% de precisión, superando a todos los métodos existentes contra los que fue probado.

Resulta que enseñar juegos como Battleship puede hacer que los pequeños modelos de IA sean mucho más inteligentes.

Investigadores del MIT utilizaron una prueba al estilo de Battleship para demostrar cómo los modelos de IA más pequeños pueden mejorar al hacer preguntas más precisas, lo que podría hacer que los agentes de IA más económicos sean más útiles sin depender de sistemas más grandes.