
GigaChat 2.0 lleva la inteligencia artificial rusa a un nuevo nivel
El modelo es capaz de trabajar con audio, video, textos, imágenes y analizar datos de Internet en tiempo real.
Sber presentó una versión actualizada de su plataforma de redes neuronales: GigaChat 2.0. Ya no es solo un chatbot: ahora es un asistente multimodal completo, capaz de comprender el habla, las imágenes, los videos y grandes volúmenes de texto, produciendo datos relevantes y verificados vinculados a las Fuentes. El nuevo GigaChat 2.0 también está integrado en los asistentes de voz de los altavoces inteligentes Sber, y una de las primeras plataformas digitales en integrarlo fue MACH de VK.
Lo que ha cambiado en GigaChat 2.0
La principal innovación es el apoyo a la multimodalidad. La inteligencia artificial ahora reconoce archivos de audio de voz, comprende imágenes, trabaja con videos a través de enlaces (incluido YouTube) y analiza documentos de hasta 200 páginas. Por ejemplo, un usuario puede descargar un contrato de arrendamiento y obtener un análisis teniendo en cuenta las leyes rusas actuales, descifrar una grabación de audio de recomendaciones médicas o comprender la esencia de un video tutorial.
Las capacidades de procesamiento de audio han mejorado seriamente. El modelo percibe los datos de audio directamente, sin transformarlos en texto. Ella es capaz de resaltar los significados principales, responder preguntas sobre el contenido, reconocer el habla, los acentos, la música y los sonidos extraños. Las posibilidades están limitadas por el Tamaño de los archivos: hasta 60 minutos o 30 megabytes. Sin embargo, en la práctica, mientras que hay limitaciones de formatos y volúmenes cuando se trabaja con archivos de audio.
Trabajar con datos actualizados en tiempo real se ha convertido en otra característica clave. Ahora GigaChat 2.0 puede buscar información en la web, filtrarla, resaltar lo principal y emitir enlaces a Fuentes verificadas. Esto evita los datos obsoletos en los que se entrenó el modelo y reduce el riesgo de las llamadas "alucinaciones": errores de emisión.
Dos versiones - para diferentes tareas
La línea tiene dos versiones: GigaChat 2 Pro - para tareas cotidianas, como escribir textos o información de referencia rápida, y GigaChat 2 Max-para consultas profesionales complejas. El modelo Max ya ha ganado el primer lugar entre los modelos AI en el Benchmark MERA para el idioma ruso y compite con confianza con análogos extranjeros como GPT-4 y LLaMA 70B.
Música, imágenes y videos
GigaChat 2.0 ha aprendido a generar música y Canciones a petición de texto - ahora la Duración máxima de la pista alcanza los tres minutos, y se puede crear en uno. El modelo Admite la generación de composiciones incluso en idiomas extranjeros, como el chino.
El trabajo con imágenes también ha alcanzado un nuevo nivel. La inteligencia artificial puede analizar el contenido de una foto, descifrar el texto, aconsejar estilos de ropa, resolver problemas o explicar el contenido de los recibos.
Con respecto al video, GigaChat 2.0 es capaz de procesar enlaces: el modelo analiza la pista de audio, explica el punto principal, responde preguntas o resalta puntos clave, incluidos videos en Inglés u otros idiomas.
Altavoces inteligentes y diálogo en vivo
Por primera vez en Rusia, todos los altavoces inteligentes de sber se traducen a un gran modelo de idioma. Esto le permite mantener un diálogo en vivo con el usuario en un idioma claro o en un rol determinado. Ahora, la columna mantiene el hilo de la conversación 10 veces más que antes, explica las cosas difíciles en palabras simples o responde en persona, como una estrella de cine.
El modelo Admite 18 opciones de configuración de comunicación: elección de voz, formato de llamada (en "usted" o "usted"), estilo de comunicación. Puede configurar varios comandos en un solo recurso, y la columna en sí entenderá cuándo debe poner una alarma, encender música o encontrar información.
GigaChat 2.0 en la plataforma MACH de VK
Mensajero wechat uno de los primeros nuevos socios fue la plataforma MACH de VK — el análogo doméstico de WeChat con mensajero, Mini-aplicaciones, chatbots y Servicio de pago. Los usuarios pueden usar GigaChat 2.0 para crear textos, transcribir audio, volver a contar brevemente videos y artículos, obtener ayuda con asuntos profesionales y cotidianos.
GigaChat 2.0 fue un paso importante en el desarrollo de los servicios de inteligencia artificial rusos. Gracias a la integración con altavoces inteligentes, plataformas y una mayor funcionalidad, se ha convertido en un asistente universal completo que comprende texto, sonido, video e imagen, y puede no solo responder, sino analizar, aconsejar e incluso crear música.
Lea también
Gemelos digitales en la construcción. Eficacia, desafíos y perspectivas
Un gemelo digital es una réplica virtual exacta de un objeto, como un automóvil o un edificio, o un proceso, como la producción de un producto en particular. Según un estudio de la HSE, casi el 22% de las empresas de 15 sectores de la economía ya están utilizando esta tecnología, y el 34% planea implementarla en el trabajo. Acerca de cómo estos gemelos ayudan a la industria de la construcción, IT-World dijo Kirill Polyakov, fundador de la plataforma digital para la gestión de la construcción Pragmacore (pequeña empresa de tecnología Skolkovo).

Otros artículos






GigaChat 2.0 lleva la inteligencia artificial rusa a un nuevo nivel
El modelo es capaz de trabajar con audio, video, textos, imágenes y analizar datos de Internet en tiempo real.