Si scopre che insegnare giochi come Battaglia Navale può rendere i piccoli modelli di intelligenza artificiale molto più intelligenti.
Trasformando Battleship in un campo di addestramento per l'IA, i ricercatori hanno aiutato i modelli più piccoli a ragionare in modo più efficiente.
I ricercatori del MIT hanno utilizzato un'impostazione in stile Battleship per testare se gli agenti IA possono migliorare il modo in cui raccolgono informazioni prima di fare una mossa. Il risultato è stato un notevole aumento delle prestazioni per i sistemi più piccoli, incluso un modello che è passato dal battere raramente gli esseri umani a vincere la maggior parte delle sue partite dopo che i ricercatori hanno cambiato il modo in cui cercava sulla scacchiera.
Quello spostamento colpisce direttamente una delle maggiori debolezze degli agenti IA di oggi. Spesso viene chiesto loro di gestire compiti in cui la risposta dipende da dettagli che non hanno ancora. Il lavoro del MIT suggerisce che una migliore pianificazione delle domande può far agire un modello più economico in modo molto più capace.
Quanto è diventato più intelligente
Il test del MIT ha utilizzato una versione di Battleship costruita attorno a domande in linguaggio naturale. Un agente IA ha interpretato il ruolo del compagno di squadra che cercava di localizzare navi nascoste, mentre un altro aveva accesso alla scacchiera e rispondeva.
Digital Trends
Il maggiore salto è venuto da Llama 4 Scout. Il MIT ha dichiarato che il modello più piccolo ha battuto i giocatori umani solo nell'8% delle partite all'inizio. Dopo che i ricercatori hanno aggiunto una strategia di inferenza più deliberata, ha battuto gli umani l'82% delle volte e ha superato un modello di frontiera più grande operando a circa l'1% del costo.
Questo è il numero da tenere d'occhio se ti interessa il costo dell'IA. Il modello non ha vinto diventando più grande, ma ha vinto scegliendo domande più incisive e facendo un uso migliore di ogni risposta.
Perché Battleship aiuta l'IA a imparare
Battleship funziona come test perché costringe un agente IA ad agire con informazioni limitate. Non può vedere l'intera scacchiera, quindi ogni domanda deve restringere la ricerca e preparare la mossa successiva.
Questo si adatta perfettamente agli strumenti pratici di IA. Un bot di supporto, un assistente alla ricerca o un agente di pianificazione spesso deve porre domande di follow-up prima di poter aiutare. Quando quel processo si interrompe, il modello può perdere un dettaglio chiave, ripetersi o fare una raccomandazione troppo presto.
Fatemeh Rezvani / Unsplash
L'approccio del MIT mette pressione su quel punto debole. Misura se un agente può raccogliere le informazioni giuste prima di produrre una risposta.
Dove potrebbe andare questo in seguito
Il test più difficile è se lo stesso approccio funzioni oltre i giochi. Battleship è controllato, il che lo rende più facile da valutare rispetto ai flussi di lavoro degli agenti aperti nella ricerca, nel supporto clienti o nel software per il lavoro.
Tuttavia, la direzione merita di essere seguita. Se i modelli più piccoli imparano a porre domande più incisive prima di agire, le aziende potrebbero costruire strumenti di IA più economici che sembrano più capaci nell'uso quotidiano.
Il prossimo traguardo è il trasferimento dalla scacchiera al lavoro reale. Un compito con istruzioni poco chiare, file mancanti e un utente frettoloso sarà molto più difficile da risolvere.
Paulo Vargas è un laureato in inglese diventato reporter e poi scrittore tecnico, con una carriera che è sempre tornata a...
Gemini potrebbe presto offrire una modalità di risoluzione dei problemi e farti risparmiare un viaggio ai manuali di aiuto
La nuova modalità di risoluzione dei problemi di Gemini offre soluzioni passo dopo passo utilizzando risposte testuali e widget interattivi
Google potrebbe aver appena mostrato accidentalmente a tutti dove sta andando Gemini. Secondo TestingCatalog, una nuova modalità di risoluzione dei problemi è apparsa silenziosamente nel menu di selezione del modello Gemini per alcuni utenti. Si trova accanto alle opzioni esistenti come Gemini 3.5 Flash e 3.1 Pro, che sono i modelli IA standard tra cui già cambi nel'app.
Leggi di più
Apple potrebbe offrire il MacBook Ultra in due dimensioni con un display OLED unico nel suo genere
Un nuovo rapporto rivela la dimensione del display del MacBook Ultra, la tecnologia OLED e la finestra di lancio
Il MacBook Ultra, secondo le voci, si sta configurando per essere uno dei redesign più significativi del Mac degli ultimi anni, e un nuovo rapporto di settore suggerisce che potrebbe arrivare prima di quanto chiunque si aspettasse. La società di ricerca Omdia ha pubblicato un nuovo studio sull'adozione dell'OLED nei laptop, e all'interno ci sono alcuni dettagli molto specifici sul prossimo MacBook di Apple. Quali dimensioni dello schermo avrà il MacBook Ultra?
Leggi di più
Ora puoi inviare email direttamente da ChatGPT sul web
Ora puoi redigere, modificare e inviare email direttamente all'interno di ChatGPT sul web
Se hai mai redatto un'email in ChatGPT e poi hai dovuto copiarla su Gmail o Outlook per inviarla effettivamente, ora puoi saltare quel passaggio extra. OpenAI ha implementato la possibilità di inviare email direttamente dai blocchi di scrittura in ChatGPT sul web, mantenendo l'intero processo all'interno di una singola conversazione dall'inizio alla fine.
Leggi di più
Altri articoli
Si scopre che insegnare giochi come Battaglia Navale può rendere i piccoli modelli di intelligenza artificiale molto più intelligenti.
I ricercatori del MIT hanno utilizzato un test in stile Battleship per dimostrare come modelli di intelligenza artificiale più piccoli possano migliorare ponendo domande più precise, rendendo potenzialmente agenti AI più economici più utili senza fare affidamento su sistemi più grandi.
