GigaChat 2.0 porta l'intelligenza artificiale russa al livello successivo

GigaChat 2.0 porta l'intelligenza artificiale russa al livello successivo

      Il modello è in grado di lavorare con audio, video, testi, immagini e analisi in tempo reale dei dati dal web.

       Sber ha presentato una versione aggiornata della sua piattaforma di rete neurale, GigaChat 2.0. Non è più solo un chatbot: ora è un assistente multimodale Completo in grado di comprendere discorso, immagini, video e grandi quantità di testo, fornendo dati pertinenti e verificati con riferimento alle fonti. Il Nuovo GigaChat 2.0 è anche integrato negli assistenti vocali degli altoparlanti intelligenti Sber e una delle prime piattaforme digitali a integrarlo è stata Mach di VK.

       Cosa è cambiato in GigaChat 2.0

       L'innovazione principale è il supporto per la multimodalità. L'intelligenza artificiale ora riconosce i file audio vocali, comprende le immagini, lavora con i video tramite collegamenti (incluso YouTube) e analizza documenti fino a 200 pagine. Ad esempio, un utente può scaricare un contratto di locazione e ottenere un'analisi tenendo conto delle attuali leggi russe, trascrivere una registrazione audio delle raccomandazioni mediche o comprendere l'essenza di un video tutorial.

       Le capacità di elaborazione audio sono state notevolmente migliorate. Il modello percepisce direttamente i dati audio, senza convertirli in testo. È in grado di evidenziare i significati principali, rispondere alle domande sul contenuto, riconoscere la parola parlata, gli accenti, la musica e i suoni estranei. Le opzioni sono limitate alle dimensioni dei file: fino a 60 minuti o 30 megabyte. È vero, in pratica, ci sono ancora limitazioni di formati e volumi quando si lavora con file audio.

       Lavorare con dati aggiornati in tempo reale è diventata un'altra caratteristica chiave. Ora GigaChat 2.0 può cercare informazioni su Internet, filtrarle, evidenziare la cosa principale e fornire collegamenti a fonti verificate. Ciò evita i dati obsoleti su cui è stato addestrato il modello e riduce il rischio di cosiddette «allucinazioni» — errori di estradizione.

       Due versioni - per compiti diversi

       Ci sono due versioni nella gamma: GigaChat 2 Pro — per attività quotidiane come scrivere testi o informazioni di base rapide — e GigaChat 2 Max-per richieste professionali complesse. Il modello Max ha già ottenuto il primo posto tra i modelli AI nel benchmark MERA per la lingua russa e compete con fiducia con analoghi stranieri come GPT-4 e LLaMA 70b.

       Musica, immagini e video

       GigaChat 2.0 ha imparato a generare musica e canzoni su richiesta di testo: ora la durata massima di una traccia raggiunge i tre minuti e può essere creata in uno. Il modello supporta la generazione di composizioni anche in lingue straniere,come il cinese.

       Anche il lavoro con le immagini ha raggiunto un nuovo livello. L'intelligenza artificiale può analizzare il contenuto di una foto, decifrare il testo, consigliare stili di abbigliamento, risolvere problemi o spiegare il contenuto delle ricevute.

       Per quanto riguarda i video, GigaChat 2.0 è in grado di gestire i collegamenti: il modello analizza la traccia audio, racconta l'essenza principale, risponde alle domande o evidenzia i punti chiave, inclusi i video in inglese o in altre lingue.

       Altoparlanti intelligenti e dialogo dal vivo

       Per la prima volta in Russia, tutti gli altoparlanti intelligenti di Sber sono stati tradotti in un grande modello linguistico. Ciò consente un dialogo dal vivo con l'utente in una lingua chiara o in un determinato ruolo. Ora, la colonna mantiene il thread della conversazione 10 volte più a lungo di prima, spiega cose difficili in parole semplici o risponde da una persona come una star del cinema.

       Il modello supporta 18 opzioni di personalizzazione della comunicazione: selezione della voce, Formato di chiamata (su «tu» o «tu»), stile di comunicazione. È possibile impostare più comandi in una chiamata e la colonna stessa capirà quando è necessario impostare una sveglia, accendere musica o trovare informazioni.

       GigaChat 2.0 sulla piattaforma Mach di VK

       Uno dei primi nuovi partner è stata la piattaforma Mach di VK, un analogo domestico di WeChat con Messenger, Mini — applicazioni, chatbot e un servizio di pagamento. Gli utenti possono utilizzare GigaChat 2.0 per creare testi, trascrivere audio, raccontare brevemente video e ARTICOLI, ottenere aiuto in questioni professionali e quotidiane.

       GigaChat 2.0 è stato un passo importante nello sviluppo dei servizi ai russi. Grazie all'integrazione con altoparlanti intelligenti, piattaforme e funzionalità avanzate, si è evoluto in un assistente versatile a tutti gli effetti che comprende testo, suono, video e immagini — e può non solo rispondere, ma analizzare, consigliare e persino creare musica.

       Leggi anche

       Gemelli digitali nella costruzione. Efficienza, sfide e prospettive

      

       Un gemello digitale è una replica virtuale di un oggetto, come un'auto o un edificio, o di un processo, come la produzione di un determinato prodotto. Secondo uno studio DELL'HSE, quasi il 22% delle aziende di 15 settori economici utilizza già questa tecnologia e il 34% prevede di implementarla nel lavoro. Kirill Polyakov, fondatore della piattaforma digitale per la gestione dei cantieri Pragmacore (piccola azienda tecnologica SKOLKOVO), ha detto A IT-World come tali doppi aiutano l'industria delle costruzioni.

GigaChat 2.0 porta l'intelligenza artificiale russa al livello successivo

Altri articoli

GigaChat 2.0 porta l'intelligenza artificiale russa al livello successivo

Il modello è in grado di lavorare con audio, video, testi, immagini e analisi in tempo reale dei dati dal web.