DeepSeek prepara la próxima disrupción de la IA con modelos de superación personal

DeepSeek prepara la próxima disrupción de la IA con modelos de superación personal

      Hace apenas unos meses, la gran apuesta de Wall Street por la IA generativa tuvo un momento decisivo cuando DeepSeek llegó a escena. A pesar de su naturaleza fuertemente censurada, DeepSeek de código abierto demostró que un modelo de inteligencia artificial de razonamiento fronterizo no necesariamente requiere miles de millones de dólares y se puede lograr con recursos modestos.

      Rápidamente encontró la adopción comercial de gigantes como Huawei, Oppo y Vivo, mientras que empresas como Microsoft, Alibaba y Tencent rápidamente le dieron un lugar en sus plataformas. Ahora, el próximo objetivo de la bulliciosa compañía china son los modelos de IA que se mejoran a sí mismos y que utilizan un enfoque de recompensa del juez en bucle para mejorarse a sí mismos.

      En un artículo previo a la impresión (a través de Bloomberg), investigadores de DeepSeek y la Universidad Tsinghua de China describen un nuevo enfoque que podría hacer que los modelos de IA sean más inteligentes y eficientes de una manera que se mejore a sí misma. La tecnología subyacente se llama ajuste crítico de principios propios (SPCT, por sus siglas en inglés), y el enfoque se conoce técnicamente como modelado generativo de recompensas (GRM, por sus siglas en inglés). 

      Nadeem Sarwar / Tendencias digitales

      En los términos más simples, es algo así como crear un ciclo de retroalimentación en tiempo real. Un modelo de IA se mejora fundamentalmente aumentando el tamaño del modelo durante el entrenamiento. Eso requiere mucho trabajo humano y recursos informáticos. DeepSeek propone un sistema en el que el "juez" subyacente presenta su propio conjunto de críticas y principios para un modelo de IA mientras prepara una respuesta a las consultas de los usuarios. 

      Luego, este conjunto de críticas y principios se compara con las reglas estáticas establecidas en el corazón de un modelo de IA y el resultado deseado. Si hay un alto grado de coincidencia, se genera una señal de recompensa, que guía efectivamente a la IA para que se desempeñe aún mejor en el próximo ciclo. 

      Los expertos detrás del artículo se refieren a la próxima generación de modelos de IA que se mejoran a sí mismos como DeepSeek-GRM. Los puntos de referencia enumerados en el documento sugieren que estos modelos funcionan mejor que los modelos Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek dice que estos modelos de IA de próxima generación se lanzarán a través del canal de código abierto. 

      ¿IA que se mejora a sí misma?

      Universidad de Dartmouth

      El tema de la IA que puede mejorarse a sí misma ha generado algunos comentarios ambiciosos y controvertidos. El ex CEO de Google, Eric Schmidt, argumentó que podríamos necesitar un interruptor de apagado para tales sistemas. "Cuando el sistema puede mejorarse a sí mismo, debemos pensar seriamente en desconectarlo", dijo Schmidt, citado por Fortune.

      El concepto de una IA recursivamente que se mejora a sí misma no es exactamente un concepto novedoso. La idea de una máquina ultra inteligente, que posteriormente sea capaz de fabricar máquinas aún mejores, en realidad se remonta al matemático I. J. Good en 1965. En 2007, el experto en IA Eliezer Yudkowsky formuló la hipótesis de Seed AI, una IA "diseñada para la autocomprensión, la automodificación y la superación personal recursiva.”

      En 2024, Sakana AI de Japón detalló el concepto de un "científico de IA" sobre un sistema capaz de pasar toda la cartera de un trabajo de investigación de principio a fin. En un artículo de investigación publicado en marzo de este año, los expertos de Meta revelaron modelos de lenguaje auto gratificantes en los que la propia IA actúa como juez para proporcionar recompensas durante el entrenamiento.

      

      El CEO de Microsoft, Satya Nadella, dice que el desarrollo de IA está siendo optimizado por el modelo o1 de OpenAI y ha entrado en una fase recursiva:" estamos usando IA para construir herramientas de IA para construir una mejor IA" pic.twitter.com/IHuFIpQl2C-Tsarathustra (@tsarnick) 21 de octubre de 2024

      

      Las pruebas internas de Meta en su modelo de IA Llama 2 utilizando la novedosa técnica de recompensa automática lo vieron superar a rivales como Claude 2 de Anthropic, Gemini Pro de Google y los modelos GPT-4 de OpenAI. Anthropic, respaldada por Amazon, detalló lo que llamaron manipulación de recompensas, un proceso inesperado "en el que un modelo modifica directamente su propio mecanismo de recompensa.”

      Google no se queda atrás en la idea. En un estudio publicado en la revista Nature a principios de este mes, los expertos de Google DeepMind mostraron un algoritmo de IA llamado Dreamer que puede mejorarse a sí mismo, utilizando el juego Minecraft como ejemplo de ejercicio. 

      Los expertos de IBM están trabajando en su propio enfoque llamado entrenamiento deductivo de cierre, donde un modelo de IA usa sus propias respuestas y las evalúa con los datos de entrenamiento para mejorarse a sí mismo. Sin embargo, toda la premisa no es todo sol y arcoíris.

      La investigación sugiere que cuando los modelos de IA intentan entrenarse con datos sintéticos autogenerados, conducen a defectos coloquialmente conocidos como "colapso del modelo"."Sería interesante ver hasta qué punto DeepSeek ejecuta la idea y si puede hacerlo de una manera más frugal que sus rivales de Occidente. 

DeepSeek prepara la próxima disrupción de la IA con modelos de superación personal DeepSeek prepara la próxima disrupción de la IA con modelos de superación personal

Otros artículos

Si tienes que ver un programa de Hulu este abril, transmite este Si tienes que ver un programa de Hulu este abril, transmite este Fargo ha estado en Hulu durante casi una década, y la experimentación en cada temporada es una gran parte de lo que hace que valga la pena ver el programa. Este dron 'flying sun' se despliega rápidamente y podría salvar vidas Este dron 'flying sun' se despliega rápidamente y podría salvar vidas El dron 'Flying Sun' de Freefly usa cientos de LED para crear luz diurna por la noche. El nuevo cable derretido plantea antiguas preocupaciones sobre defectos de diseño de Nvidia RTX 5090 El nuevo cable derretido plantea antiguas preocupaciones sobre defectos de diseño de Nvidia RTX 5090 Continúan apareciendo informes de cables fundidos con la RTX 5090, lo que confirma que el problema del conector 12V-2x6 sigue siendo un problema para las tarjetas gráficas de Nvidia. El lanzamiento de Samsung One UI 7 ha comenzado oficialmente: ¿está incluido su teléfono? El lanzamiento de Samsung One UI 7 ha comenzado oficialmente: ¿está incluido su teléfono? Samsung finalmente ha comenzado el lanzamiento de Android 15 y One UI 7 en sus dispositivos existentes, luego del lanzamiento de la serie Galaxy S25, que presentó el software a principios de año. Samsung se ha enfrentado a muchas críticas por la velocidad a la que no ha entregado esta actualización, con Android 15 aterrizando oficialmente en []] El rumoreado centro de hogar inteligente de Apple tiene otro revés El rumoreado centro de hogar inteligente de Apple tiene otro revés Se rumorea que el centro de hogar inteligente de Apple se retrasará nuevamente. Preguntaste: Blu-ray aún no está muerto y QD-seguridad de limpieza de pantallas OLED Preguntaste: Blu-ray aún no está muerto y QD-seguridad de limpieza de pantallas OLED Usted preguntó Cada semana, seleccionaremos algunas de las preguntas más frecuentes y las responderemos de la manera más concisa y útil que sepamos. Actualizado hace menos de 1 hora En today, preguntaste: ¿Cómo se limpia de forma segura una pantalla QD-OLED? ¿Aún deberías obtener un 4K ? Y cómo asegurarse de que []]

DeepSeek prepara la próxima disrupción de la IA con modelos de superación personal

La gente de buzzy Chinese AI lab, DeepSeek, está trabajando en una nueva serie de modelos de IA llamados DeepSeek-GRM que emplean un nuevo enfoque de superación personal.