Una startup afferma di aver risolto il collo di bottiglia che frena l'IA
Una startup di Miami afferma di aver risolto un problema matematico che ha reso i modelli di intelligenza artificiale lenti e affamati di energia per quasi un decennio. L'affermazione era abbastanza audace da suscitare confronti con Theranos. Ora, però, l'azienda ha risultati di test indipendenti che supportano gran parte di essa.
La startup si chiama Subquadratic. È emersa dall'ombra a maggio con 29 milioni di dollari di finanziamenti seed e un nuovo modello linguistico chiamato SubQ. Secondo l'azienda, SubQ è più veloce, più economico e molto meno affamato di energia rispetto ai modelli leader di oggi. Può anche leggere fino a 12 volte più testo contemporaneamente.
Il collo di bottiglia decennale
Per capire perché ciò sia importante, è utile sapere come funzionano la maggior parte dei grandi modelli linguistici. Al loro interno si trova un "trasformatore", introdotto dai ricercatori di Google nel 2017. Il trasformatore esegue un processo chiamato attenzione densa.
L'attenzione densa è approfondita, ma costosa. Confronta ogni parola in un testo con ogni altra parola. Quindi, quando raddoppi la lunghezza del testo, il lavoro aumenta di circa quattro volte. Quella scalabilità "quadratica" è il motivo principale per cui i LLM consumano così tanta potenza di calcolo e energia.
La soluzione di Subquadratic
Il 💜 della tecnologia UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! La risposta di Subquadratic è abbandonare l'attenzione densa per l'"attenzione sparsa". Invece di confrontare ogni parola con ogni altra, l'attenzione sparsa mantiene solo le coppie che contano. L'idea è vecchia e molte squadre l'hanno provata. Fino ad ora, però, nessuna aveva eguagliato la qualità dell'attenzione densa.
L'azienda afferma che la sua versione finalmente lo fa. Crucialmente, sceglie quali parole su cui concentrarsi in modo dinamico, basandosi sul contenuto piuttosto che su un modello fisso. “È un po' qui che si trova il segreto,” dice il cofondatore e chief technology officer Alex Whedon.
Le prove
All'inizio, le affermazioni si basavano su un pugno di punteggi auto-pubblicati. Naturalmente, la reazione è stata scettica. Un ingegnere AI l'ha riassunta su X: SubQ è “o la più grande innovazione dai tempi del Trasformatore... o è AI Theranos”.
Così l'azienda ha coinvolto una terza parte. Ha chiesto ad Appen, un'azienda che valuta i modelli di altre aziende, di eseguire i test. I risultati sono stati sorprendenti. In un test di velocità grezza, SubQ ha funzionato 56 volte più veloce di FlashAttention, un metodo esistente leader. In un difficile benchmark di codifica, ha ottenuto il 89,7%, vicino ai migliori modelli disponibili.
Il divario di costi sembra altrettanto ampio. Secondo il racconto della startup, eseguire un test a lungo contesto sul modello top di Anthropic costa circa 2.600 dollari. Su SubQ, afferma, lo stesso test è costato otto dollari.
Ancora troppo bello per essere vero?
Anche così, ci sono motivi per essere cauti. I benchmark non sono la stessa cosa dell'uso nel mondo reale. SubQ non è ancora ampiamente disponibile. Decine di migliaia si sono unite alla lista d'attesa, ma solo un pugno ha accesso.
C'è anche una piega nella storia delle origini. Piuttosto che addestrare SubQ da zero, Subquadratic ha iniziato da un modello a pesi aperti esistente e ha scambiato il suo nuovo metodo di attenzione. Questa è una pratica comune. Tuttavia, si colloca in modo scomodo accanto all'affermazione di reinventare completamente il funzionamento degli LLM.
“Potrebbero aver costruito qualcosa di reale e utile,” dice Will Depue, un ricercatore indipendente che ha lavorato in precedenza presso OpenAI. “Ma le prove pubbliche non giustificano ancora l'affermazione più forte che hanno risolto il collo di bottiglia dell'attenzione quadratica.”
Perché è importante
Se i risultati si mantengono, il guadagno è grande. Modelli a lungo contesto più economici e veloci potrebbero leggere interi codici sorgente, set di contratti o tesori di documenti in un colpo solo. Ridurrebbero anche il costo e l'energia necessaria per eseguire l'IA.
Quel premio è uno che l'intera industria sta inseguendo. L'IA già fatica contro l'economia in spirale degli agenti AI, e altre startup, come Flourish di Thomas Reardon, stanno attaccando l'efficienza da altri angoli. Subquadratic, però, sta scommettendo che l'intero campo la seguirà. “Non pensiamo che nessuno costruirà su trasformatori tra qualche anno,” dice il CEO Justin Dangel.
Altri articoli
Una startup afferma di aver risolto il collo di bottiglia che frena l'IA
La startup di Miami Subquadratic afferma che il suo modello SubQ supera il collo di bottiglia dell' 'attenzione quadratica'. Test indipendenti supportano gran parte di ciò, ma rimangono dei dubbi.
