Una startup dice que ha resuelto el cuello de botella que frena la IA.
Una startup de Miami dice que ha resuelto un problema matemático que ha hecho que los modelos de IA sean lentos y consuman mucha energía durante casi una década. La afirmación fue lo suficientemente audaz como para hacer comparaciones con Theranos. Sin embargo, ahora la empresa tiene resultados de pruebas independientes que respaldan gran parte de ello.
La startup se llama Subquadratic. Salió de su fase de sigilo en mayo con 29 millones de dólares en financiación inicial y un nuevo modelo de lenguaje llamado SubQ. Según la empresa, SubQ es más rápido, más barato y consume mucha menos energía que los modelos líderes actuales. También puede leer hasta 12 veces más texto a la vez.
El cuello de botella de una década
Para entender por qué eso es importante, es útil saber cómo funcionan la mayoría de los grandes modelos de lenguaje. En su núcleo se encuentra un "transformador", introducido por investigadores de Google en 2017. El transformador ejecuta un proceso llamado atención densa.
La atención densa es exhaustiva, pero costosa. Compara cada palabra en un texto con cada otra palabra. Así que cuando duplicas la longitud del texto, el trabajo se cuadruplica aproximadamente. Ese escalado "cuadrático" es la principal razón por la que los LLM consumen tanto cómputo y energía.
La solución de Subquadratic
El 💜 de la tecnología de la UE Las últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Suscríbete ahora! La respuesta de Subquadratic es dejar de lado la atención densa por la "atención dispersa". En lugar de comparar cada palabra con cada otra, la atención dispersa mantiene solo los pares que importan. La idea es antigua, y muchos equipos lo han intentado. Sin embargo, hasta ahora, ninguno había igualado la calidad de la atención densa.
La empresa dice que su versión finalmente lo hace. Crucialmente, elige dinámicamente en qué palabras centrarse, basándose en el contenido en lugar de un patrón fijo. “Ahí es donde está la salsa secreta”, dice el cofundador y director de tecnología Alex Whedon.
Los recibos
Al principio, las afirmaciones se basaban en un puñado de puntuaciones auto-publicadas. Naturalmente, la reacción fue escéptica. Un ingeniero de IA lo resumió en X: SubQ es “o el mayor avance desde el Transformer... o es la IA Theranos”.
Así que la empresa trajo a un tercero. Pidió a Appen, una firma que evalúa los modelos de otras empresas, que realizara las pruebas. Los resultados fueron sorprendentes. En una prueba de velocidad cruda, SubQ funcionó 56 veces más rápido que FlashAttention, un método existente líder. En un difícil estándar de codificación, obtuvo un 89.7 por ciento, cerca de los mejores modelos disponibles.
La brecha de costos parece igual de amplia. Según la startup, realizar una prueba de contexto largo en el modelo superior de Anthropic cuesta alrededor de 2,600 dólares. En SubQ, dice, la misma prueba costó ocho dólares.
¿Demasiado bueno para ser verdad?
Aun así, hay razones para la precaución. Los estándares no son lo mismo que el uso en el mundo real. SubQ tampoco está ampliamente disponible aún. Decenas de miles se han unido a la lista de espera, pero solo un puñado tiene acceso.
También hay un detalle en la historia de origen. En lugar de entrenar a SubQ desde cero, Subquadratic comenzó a partir de un modelo de peso abierto existente y cambió su nuevo método de atención. Eso es una práctica común. Sin embargo, se siente incómodo junto a la afirmación de reinventar completamente cómo funcionan los LLM.
“Pueden haber construido algo real y útil”, dice Will Depue, un investigador independiente que solía trabajar en OpenAI. “Pero la evidencia pública aún no justifica la afirmación más fuerte de que han resuelto el cuello de botella de la atención cuadrática”.
Por qué es importante
Si los resultados se mantienen, la recompensa es grande. Modelos de contexto largo más baratos y rápidos podrían leer bases de código enteras, conjuntos de contratos o tesoros de documentos de una sola vez. También reducirían el costo y la energía de ejecutar IA.
Ese premio es uno que toda la industria está persiguiendo. La IA ya se enfrenta a la economía en espiral de los agentes de IA, y otras startups, como Flourish de Thomas Reardon, están atacando la eficiencia desde otros ángulos. Sin embargo, Subquadratic está apostando a que todo el campo lo seguirá. “No creemos que nadie esté construyendo sobre transformadores en unos pocos años”, dice el director ejecutivo Justin Dangel.
Otros artículos
Una startup dice que ha resuelto el cuello de botella que frena la IA.
La startup de Miami Subquadratic afirma que su modelo SubQ rompe el cuello de botella de la 'atención cuadrática'. Pruebas independientes respaldan gran parte de ello, pero persisten las dudas.
