Si scopre che insegnare giochi come Battaglia Navale può rendere i piccoli modelli di intelligenza artificiale molto più intelligenti.

      Trasformando Battleship in un campo di addestramento per l'IA, i ricercatori hanno aiutato i modelli più piccoli a ragionare in modo più efficiente.

      I ricercatori del MIT hanno utilizzato un'impostazione in stile Battleship per testare se gli agenti IA possono migliorare il modo in cui raccolgono informazioni prima di fare una mossa. Il risultato è stato un notevole aumento delle prestazioni per i sistemi più piccoli, incluso un modello che è passato dal battere raramente gli esseri umani a vincere la maggior parte delle sue partite dopo che i ricercatori hanno cambiato il modo in cui cercava sulla scacchiera.

      Quello spostamento colpisce direttamente una delle maggiori debolezze degli agenti IA di oggi. Spesso viene chiesto loro di gestire compiti in cui la risposta dipende da dettagli che non hanno ancora. Il lavoro del MIT suggerisce che una migliore pianificazione delle domande può far agire un modello più economico in modo molto più capace.

      Quanto è diventato più intelligente

      Il test del MIT ha utilizzato una versione di Battleship costruita attorno a domande in linguaggio naturale. Un agente IA ha interpretato il ruolo del compagno di squadra che cercava di localizzare navi nascoste, mentre un altro aveva accesso alla scacchiera e rispondeva.

      Digital Trends

      Il maggiore salto è venuto da Llama 4 Scout. Il MIT ha dichiarato che il modello più piccolo ha battuto i giocatori umani solo nell'8% delle partite all'inizio. Dopo che i ricercatori hanno aggiunto una strategia di inferenza più deliberata, ha battuto gli umani l'82% delle volte e ha superato un modello di frontiera più grande operando a circa l'1% del costo.

      Questo è il numero da tenere d'occhio se ti interessa il costo dell'IA. Il modello non ha vinto diventando più grande, ma ha vinto scegliendo domande più incisive e facendo un uso migliore di ogni risposta.

      Perché Battleship aiuta l'IA a imparare

      Battleship funziona come test perché costringe un agente IA ad agire con informazioni limitate. Non può vedere l'intera scacchiera, quindi ogni domanda deve restringere la ricerca e preparare la mossa successiva.

      Questo si adatta perfettamente agli strumenti pratici di IA. Un bot di supporto, un assistente alla ricerca o un agente di pianificazione spesso deve porre domande di follow-up prima di poter aiutare. Quando quel processo si interrompe, il modello può perdere un dettaglio chiave, ripetersi o fare una raccomandazione troppo presto.

      Fatemeh Rezvani / Unsplash

      L'approccio del MIT mette pressione su quel punto debole. Misura se un agente può raccogliere le informazioni giuste prima di produrre una risposta.

      Dove potrebbe andare questo in seguito

      Il test più difficile è se lo stesso approccio funzioni oltre i giochi. Battleship è controllato, il che lo rende più facile da valutare rispetto ai flussi di lavoro degli agenti aperti nella ricerca, nel supporto clienti o nel software per il lavoro.

      Tuttavia, la direzione merita di essere seguita. Se i modelli più piccoli imparano a porre domande più incisive prima di agire, le aziende potrebbero costruire strumenti di IA più economici che sembrano più capaci nell'uso quotidiano.

      Il prossimo traguardo è il trasferimento dalla scacchiera al lavoro reale. Un compito con istruzioni poco chiare, file mancanti e un utente frettoloso sarà molto più difficile da risolvere.

      Paulo Vargas è un laureato in inglese diventato reporter e poi scrittore tecnico, con una carriera che è sempre tornata a...

      Gemini potrebbe presto offrire una modalità di risoluzione dei problemi e farti risparmiare un viaggio ai manuali di aiuto

      La nuova modalità di risoluzione dei problemi di Gemini offre soluzioni passo dopo passo utilizzando risposte testuali e widget interattivi

      Google potrebbe aver appena mostrato accidentalmente a tutti dove sta andando Gemini. Secondo TestingCatalog, una nuova modalità di risoluzione dei problemi è apparsa silenziosamente nel menu di selezione del modello Gemini per alcuni utenti. Si trova accanto alle opzioni esistenti come Gemini 3.5 Flash e 3.1 Pro, che sono i modelli IA standard tra cui già cambi nel'app.

      Leggi di più

      Apple potrebbe offrire il MacBook Ultra in due dimensioni con un display OLED unico nel suo genere

      Un nuovo rapporto rivela la dimensione del display del MacBook Ultra, la tecnologia OLED e la finestra di lancio

      Il MacBook Ultra, secondo le voci, si sta configurando per essere uno dei redesign più significativi del Mac degli ultimi anni, e un nuovo rapporto di settore suggerisce che potrebbe arrivare prima di quanto chiunque si aspettasse. La società di ricerca Omdia ha pubblicato un nuovo studio sull'adozione dell'OLED nei laptop, e all'interno ci sono alcuni dettagli molto specifici sul prossimo MacBook di Apple. Quali dimensioni dello schermo avrà il MacBook Ultra?

      Leggi di più

      Ora puoi inviare email direttamente da ChatGPT sul web

      Ora puoi redigere, modificare e inviare email direttamente all'interno di ChatGPT sul web

      Se hai mai redatto un'email in ChatGPT e poi hai dovuto copiarla su Gmail o Outlook per inviarla effettivamente, ora puoi saltare quel passaggio extra. OpenAI ha implementato la possibilità di inviare email direttamente dai blocchi di scrittura in ChatGPT sul web, mantenendo l'intero processo all'interno di una singola conversazione dall'inizio alla fine.

      Leggi di più

Altri articoli

Gli schermi degli smartphone stanno per entrare in un territorio di frequenze di aggiornamento ridicole, simile a quello dei monitor da gioco. 120Hz un tempo sembrava eccessivo su un telefono. Ora, una nuova fuga di notizie suggerisce che OnePlus potrebbe essere alla ricerca di frequenze di aggiornamento che sembrano più adatte a un monitor da gioco che a uno smartphone.

iOS 27 potrebbe cambiare il modo in cui la tua memoria muscolare scorre le notifiche su un telefono Uno dei cambiamenti più piccoli rumorati in iOS 27 potrebbe rivelarsi uno dei più evidenti. Se fosse vero, Apple potrebbe chiedere a milioni di utenti di reimparare uno swipe che hanno effettuato per anni.

Google rende più facile seguire le marachelle sui social media delle tue personalità preferite. Google sta dando ai creatori un nuovo palcoscenico nella Ricerca, e potrebbe cambiare il modo in cui segui le tue personalità online preferite. L'aggiornamento porta un nuovo modo per scoprire contenuti senza dover saltare continuamente tra le app.

Questa IA può distinguere una recensione online reale da una falsa, ed è sorprendentemente precisa. Un nuovo sistema di intelligenza artificiale combina testo, immagini e comportamento dei revisori per rilevare recensioni false online con oltre il 94% di precisione, superando ogni metodo esistente contro cui è stato testato.

La Siri di nuova generazione in iOS 27 potrebbe ancora essere rilasciata come un'esperienza beta nei primi giorni. La prossima generazione di Siri di Apple potrebbe finalmente arrivare con iOS 27, ma un nuovo rapporto suggerisce che gli utenti potrebbero ricevere inizialmente una versione incompleta. Apple avrebbe in programma di trattare l'assistente più come un test continuo che come un rilascio completamente rifinito.

Snap ha inviato avvisi agli studenti durante l'orario di lezione nonostante fosse a conoscenza del rischio di distrazione. Documenti interni delle cause legali presentate da oltre 1.400 distretti scolastici rivelano come Meta, Snap, TikTok e YouTube abbiano deliberatamente mirato agli studenti, anche durante l'orario scolastico.

Si scopre che insegnare giochi come Battaglia Navale può rendere i piccoli modelli di intelligenza artificiale molto più intelligenti.

I ricercatori del MIT hanno utilizzato un test in stile Battleship per dimostrare come modelli di intelligenza artificiale più piccoli possano migliorare ponendo domande più precise, rendendo potenzialmente agenti AI più economici più utili senza fare affidamento su sistemi più grandi.