DeepSeek prepara la prossima rivoluzione dell'IA con modelli auto-miglioranti

DeepSeek prepara la prossima rivoluzione dell'IA con modelli auto-miglioranti

      Appena pochi mesi fa, la grande scommessa di Wall Street sull'IA generativa ha avuto un momento di resa dei conti quando DeepSeek è arrivato sulla scena. Nonostante la sua natura pesantemente censurata, l'open source DeepSeek ha dimostrato che un modello di intelligenza artificiale di ragionamento di frontiera non richiede necessariamente miliardi di dollari e può essere tirato fuori con risorse modeste.

      Ha rapidamente trovato l'adozione commerciale da parte di giganti come Huawei, Oppo e Vivo, mentre artisti del calibro di Microsoft, Alibaba e Tencent gli hanno rapidamente dato un posto sulle loro piattaforme. Ora, il prossimo obiettivo della vivace azienda cinese è l'auto-miglioramento dei modelli di intelligenza artificiale che utilizzano un approccio di ricompensa del giudice per migliorare se stessi.

      In un documento di pre-stampa (via Bloomberg), i ricercatori della DeepSeek e della cinese Tsinghua University descrivono un nuovo approccio che potrebbe rendere i modelli di intelligenza artificiale più intelligenti ed efficienti in modo auto-migliorativo. La tecnologia sottostante è chiamata self-principled critique tuning (SPCT) e l'approccio è tecnicamente noto come generative reward modeling (GRM). 

      Nadeem Sarwar / Tendenze digitali

      In termini più semplici, è un po ' come creare un ciclo di feedback in tempo reale. Un modello di intelligenza artificiale è fondamentalmente migliorato aumentando le dimensioni del modello durante l'allenamento. Ciò richiede un sacco di lavoro umano e risorse informatiche. DeepSeek propone un sistema in cui il “giudice” sottostante viene fornito con una propria serie di critiche e principi per un modello di intelligenza artificiale mentre prepara una risposta alle query degli utenti. 

      Questo insieme di critiche e principi viene quindi confrontato con le regole statiche poste al centro di un modello di intelligenza artificiale e il risultato desiderato. Se c'è un alto grado di corrispondenza, viene generato un segnale di ricompensa, che guida efficacemente l'IA a prestazioni ancora migliori nel ciclo successivo. 

      Gli esperti dietro il documento si riferiscono alla prossima generazione di modelli di intelligenza artificiale auto-miglioranti come DeepSeek-GRM. I benchmark elencati nel documento suggeriscono che questi modelli hanno prestazioni migliori dei modelli Gemini di Google, Llama di Meta e GPT-4o di OpenAI. DeepSeek dice che questi modelli di IA di nuova generazione saranno rilasciati tramite il canale open-source. 

      Auto-miglioramento AI?

      Dartmouth College

      Il tema dell'intelligenza artificiale che può migliorare se stessa ha attirato alcune osservazioni ambiziose e controverse. L'ex CEO di Google, Eric Schmidt, ha sostenuto che potrebbe essere necessario un kill switch per tali sistemi. "Quando il sistema può auto-migliorare, dobbiamo pensare seriamente a scollegarlo", ha detto Schmidt.

      Il concetto di un'IA ricorsivamente auto-migliorativa non è esattamente un concetto nuovo. L'idea di una macchina ultra-intelligente, che in seguito è in grado di realizzare macchine ancora migliori, in realtà risale al matematico I. J. Good nel 1965. Nel 2007, l'esperto di intelligenza artificiale Eliezer Yudkowsky ha ipotizzato Seed AI, un'intelligenza artificiale “progettata per l'auto-comprensione, l'auto-modificazione e l'auto-miglioramento ricorsivo.”

      Nel 2024, la giapponese Sakana AI ha dettagliato il concetto di “scienziato dell'intelligenza artificiale” su un sistema in grado di passare l'intera pipeline di un documento di ricerca dall'inizio alla fine. In un documento di ricerca pubblicato nel marzo di quest'anno, gli esperti di Meta hanno rivelato modelli linguistici auto-gratificanti in cui l'IA stessa agisce come giudice per fornire ricompense durante l'allenamento.

      

      Il CEO di Microsoft Satya Nadella afferma che lo sviluppo dell'IA è stato ottimizzato dal modello o1 di OpenAI ed è entrato in una fase ricorsiva “ " stiamo usando l'intelligenza artificiale per costruire strumenti di intelligenza artificiale per costruire un'intelligenza artificiale migliore” pic.twitter.com/IHuFIpQl2C-Tsarathustra (@tsarnick) 21 ottobre 2024

      

      I test interni di Meta sul suo modello di IA Llama 2 utilizzando la nuova tecnica auto-gratificante lo hanno visto sovraperformare rivali come Claude 2 di Anthropic, Gemini Pro di Google e i modelli GPT-4 di OpenAI. Anthropic, sostenuto da Amazon, ha dettagliato quello che hanno chiamato manomissione della ricompensa, un processo inaspettato “in cui un modello modifica direttamente il proprio meccanismo di ricompensa.”

      Google non è troppo indietro sull'idea. In uno studio pubblicato sulla rivista Nature all'inizio di questo mese, gli esperti di Google DeepMind hanno presentato un algoritmo di intelligenza artificiale chiamato Dreamer che può auto-migliorare, utilizzando il gioco Minecraft come esempio di esercizio. 

      Gli esperti di IBM stanno lavorando al proprio approccio chiamato formazione deduttiva di chiusura, in cui un modello di intelligenza artificiale utilizza le proprie risposte e le valuta rispetto ai dati di formazione per migliorare se stesso. L'intera premessa, tuttavia, non è tutto sole e arcobaleni.

      La ricerca suggerisce che quando i modelli di intelligenza artificiale cercano di allenarsi su dati sintetici auto-generati, porta a difetti colloquialmente noti come “collasso del modello."Sarebbe interessante vedere come DeepSeek esegue l'idea e se può farlo in modo più frugale rispetto ai suoi rivali occidentali. 

DeepSeek prepara la prossima rivoluzione dell'IA con modelli auto-miglioranti DeepSeek prepara la prossima rivoluzione dell'IA con modelli auto-miglioranti

Altri articoli

DeepSeek prepara la prossima rivoluzione dell'IA con modelli auto-miglioranti

I ragazzi del buzzy Chinese AI lab, DeepSeek, stanno lavorando a una nuova serie di modelli di intelligenza artificiale chiamati DeepSeek-GRM che impiegano un nuovo approccio auto-migliorativo.