El cofundador de Databricks, Matei Zaharia, gana el Premio ACM y declara que la AGI ya está aquí.
En resumen: Matei Zaharia, el profesor de ciencias de la computación de Berkeley y cofundador de Databricks que creó Apache Spark, ha ganado el Premio ACM 2026 en Computación por sus contribuciones fundamentales a los sistemas de datos distribuidos y la infraestructura de IA. El premio de $250,000, financiado por un fondo de Infosys, es uno de los honores más prestigiosos en la carrera media de la informática. Zaharia está donando el premio a la caridad. En una entrevista posterior al anuncio, argumentó que la AGI ya ha llegado, “simplemente no está en una forma que apreciemos”, y que el campo debería dejar de comparar la IA con la cognición humana.
De la tesis doctoral a la infraestructura global
Zaharia comenzó a construir Apache Spark como estudiante de doctorado en UC Berkeley en 2009, una alternativa más rápida a Hadoop MapReduce, que se había convertido en el marco predeterminado para el procesamiento de datos distribuidos a gran escala, pero que estaba lastrado por la lenta entrada/salida basada en disco entre etapas. Spark movió el cálculo intermedio a la memoria, reduciendo los tiempos de procesamiento para cargas de trabajo iterativas, entrenamiento de aprendizaje automático, procesamiento de gráficos, análisis de flujos, de horas a minutos o segundos. La brecha de rendimiento fue lo suficientemente decisiva como para que Spark efectivamente reemplazara a MapReduce para la mayoría de las cargas de trabajo analíticas dentro de unos pocos años de su lanzamiento. Sigue siendo uno de los marcos de procesamiento de datos más ampliamente implementados en el mundo. La disertación doctoral de Zaharia sobre Spark ganó el Premio ACM a la Disertación Doctoral en 2014, y el proyecto se convirtió en la semilla de Databricks, la empresa de datos e IA que cofundó en 2013 con seis colegas de Berkeley. Databricks alcanzó una valoración de $134 mil millones en diciembre de 2025 tras su ronda de financiación Serie L, y reveló una tasa de ingresos de $5.4 mil millones en febrero de 2026, creciendo a más del 65% interanual. La ACM, en su citación del premio, acreditó a Zaharia con “el desarrollo visionario de sistemas de datos distribuidos e infraestructura de computación, que ha permitido el aprendizaje automático, la analítica y la IA a gran escala”. El ecosistema de código abierto que Zaharia ayudó a popularizar, Apache Spark, está licenciado bajo Apache 2.0, la misma licencia que Google utilizó la semana pasada para su familia de modelos Gemma 4 de pesos abiertos, se ha convertido en el marco predeterminado para lanzamientos de modelos y herramientas de IA que buscan una amplia adopción comercial.
Delta Lake, MLflow y el data lakehouse
Las contribuciones de Zaharia no se detuvieron en Spark. A medida que la infraestructura de datos se trasladó a la nube y las organizaciones comenzaron a almacenar vastas cantidades de datos no estructurados en almacenes de objetos como Amazon S3, surgió un nuevo conjunto de problemas: los lagos de datos en la nube eran rápidos y baratos pero poco fiables, sin garantías transaccionales, sin aplicación consistente de esquemas y sin una forma fundamentada de manejar escrituras concurrentes. Zaharia co-desarrolló Delta Lake para resolver esto, aportando semánticas transaccionales ACID a los almacenes de objetos en la nube y habilitando un nuevo patrón arquitectónico, el data lakehouse, que combinaba las ventajas de costo y escala de un lago de datos con las propiedades de consistencia y gobernanza de un almacén de datos tradicional. La arquitectura del lakehouse es ahora el producto comercial central de Databricks y ha sido ampliamente adoptada en la ingeniería de datos empresariales. Un tercer proyecto, MLflow, abordó el caos operativo que había surgido a medida que el aprendizaje automático pasaba de la investigación a la producción. Los equipos que construían modelos de ML no tenían una forma consistente de rastrear experimentos, versionar modelos o gestionar implementaciones a través del diverso conjunto de herramientas, Scikit-learn, TensorFlow, PyTorch, XGBoost, que una sola organización podría utilizar simultáneamente. MLflow proporcionó un marco de ciclo de vida estructurado que se convirtió en una de las plataformas líderes para operacionalizar la IA a gran escala.
Agentes, DSPy y la frontera de investigación actual
La investigación reciente de Zaharia ha cambiado de la infraestructura de datos a los sistemas que hacen que los agentes de IA sean más fiables y capaces. Es coautor de DSPy, un marco de código abierto que optimiza automáticamente los prompts y parámetros utilizados para instruir modelos de lenguaje para tareas específicas, reemplazando la ingeniería de prompts manual que se ha convertido en una fuente significativa de fragilidad en los sistemas de IA en producción. Un proyecto relacionado, GEPA, extiende este enfoque a la calidad de los agentes, centrándose en cómo mejorar la fiabilidad de los flujos de trabajo de IA de múltiples pasos donde los errores se acumulan a través de decisiones secuenciales. El hilo común a lo largo de la carrera de Zaharia es el pensamiento sistémico aplicado a las partes de la IA que no son el modelo en sí: los pipelines de datos, el seguimiento de experimentos, la infraestructura de implementación y ahora la capa de orquestación de agentes. El ecosistema de implementación de IA empresarial que ha crecido en torno a estas herramientas es ahora un mercado comercial significativo por derecho propio: Infosys, que financia el Premio ACM a través de su fondo, también es uno de los socios ancla en la Red de Socios Claude de Anthropic, lanzada en marzo de 2026 con $100 millones comprometidos a la implementación de IA empresarial, un mercado que no existiría en su forma actual sin la infraestructura de datos y ML que el trabajo de código abierto de Zaharia hizo accesible. “Lo que más me emociona”, dijo Zaharia en la entrevista de TechCrunch, “es lo que llamaría IA para la búsqueda, pero específicamente para la investigación o la ingeniería”. Imagina a estudiantes e investigadores utilizando IA para simular cambios a nivel molecular en sistemas biológicos y predecir sus resultados, investigación científica autónoma a una escala y velocidad que ningún equipo humano podría replicar.
“AGI ya está aquí”, la afirmación y lo que quiere decir
El momento que generó más atención en el anuncio no fue el premio en sí, sino una declaración que Zaharia hizo sobre el estado de la IA. “AGI ya está aquí”, le dijo a TechCrunch. “Simplemente no está en una forma que apreciemos”. La afirmación es provocativa, pero su elaboración aclara lo que está y no está diciendo. La definición convencional de inteligencia general artificial, un sistema capaz de realizar cualquier tarea intelectual que un humano pueda, establece una comparación entre la IA y la cognición humana que Zaharia argumenta que es el marco equivocado. “Deberíamos dejar de intentar aplicar estándares humanos a estos modelos de IA”, dijo. Su razonamiento es que las capacidades de los sistemas de IA actuales son estructuralmente diferentes de la inteligencia humana en lugar de simplemente más débiles. Un humano solo puede aprobar el examen de abogacía si ha integrado vastas cantidades de conocimiento legal a través de años de estudio; una IA puede ingerir el mismo corpus en minutos. Si luego responde correctamente a preguntas legales, el punto de Zaharia es que desestimar esto como “no realmente inteligencia” porque se adquirió de manera diferente es un estándar arbitrario. El debate sobre cómo definir y medir el progreso de la IA está moldeando la estrategia competitiva en los mejores laboratorios: Demis Hassabis describió recientemente cómo Google DeepMind se reestructuró para acelerar el ritmo de investigación, caracterizando la actual carrera de IA como “feroz” e “históricamente intensa”. La redefinición de AGI de Zaharia es menos una afirmación triunfalista que un argumento metodológico: la insistencia del campo en medir la IA contra puntos de referencia humanos puede estar causando que malinterprete lo que los sistemas que ya ha construido son realmente capaces de hacer. La evidencia comercial de esa capacidad se está acumulando rápidamente, Anthropic, cuyos modelos funcionan en la infraestructura de datos que el trabajo de código abierto de Zaharia ayudó a normalizar, alcanzó una tasa de ingresos anual de $30 mil millones a principios de este año. El año 2025 marcó el cambio en la IA de novedad de investigación a infraestructura operativa, y Zaharia, cuya carrera siempre ha estado centrada en la capa debajo de la capa que todos los demás están mirando, ha estado construyendo las bases para ese cambio desde su doctorado.
Otros artículos
El cofundador de Databricks, Matei Zaharia, gana el Premio ACM y declara que la AGI ya está aquí.
El creador de Apache Spark y CTO de Databricks, Matei Zaharia, gana el Premio ACM en Computación 2026 y argumenta que la AGI ya ha llegado, solo que no en una forma que reconozcamos.
