Mistral OCR 4: economico, intelligenza artificiale per documenti self-hosted

      Mistral OCR 4 legge un documento come una mappa strutturata, non come un muro di testo. È economico, parla 170 lingue e può funzionare interamente sui propri server. Il campione dell'IA europea sta puntando al back office delle aziende.

      Mistral ha un nuovo modello, e non è un chatbot. La società francese ha rilasciato il 23 giugno Mistral OCR 4, un sistema che trasforma i documenti in dati strutturati, ha dichiarato in un post sul blog. Il modello rimane piccolo e focalizzato, mirando a un enorme obiettivo: la burocrazia mondiale.

      Il riconoscimento ottico dei caratteri esiste da decenni. La proposta qui è ciò che il modello restituisce. I sistemi più vecchi convertono una pagina in testo pulito. OCR 4 restituisce una mappa della pagina, con ogni blocco etichettato e localizzato. Gli annotatori indipendenti lo hanno preferito a ogni altro sistema concorrente provato, ha detto Mistral, con una percentuale di vittoria media del 72%.

      Da pagina a mappa strutturata

      OCR 4 fa tre nuove cose contemporaneamente. Disegna riquadri di delimitazione attorno a ogni elemento, in modo che il software sappia esattamente dove si trova ogni riga. Classifica ogni blocco per tipo, contrassegnando titoli, tabelle, equazioni e persino firme. E aggiunge un punteggio di fiducia, per pagina e per parola, in modo che un umano sappia quali parti controllare nuovamente.

      I clienti hanno richiesto riquadri di delimitazione più di qualsiasi altra funzione, ha detto Mistral. Permettono a un'app di indicare la fonte esatta di una risposta. Abbinati ai tipi di blocco e ai punteggi di fiducia, consentono citazioni, redazioni e revisione umana. L'output arriva anche come markdown pulito. Il 💜 della tecnologia UE

      Le ultime novità dalla scena tecnologica dell'UE, una storia del nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora!

      Il cambiamento è importante per ciò che verrà dopo. Un chatbot può riassumere un contratto. Un agente deve archiviarlo. Per questo, il software deve distinguere una firma da un subtotale e sapere dove si trova ciascuno. OCR 4 fornisce quella struttura, mentre gli strumenti più vecchi restituivano un blocco piatto di parole.

      Segna una chiara rottura con l'ultima versione. OCR 3 si concentrava sul trasformare una pagina in testo pulito e tabelle ordinate. OCR 4 restituisce invece l'intera struttura. Ogni blocco porta una posizione, un tipo e un punteggio. I sistemi a valle apprendono quindi non solo cosa dice un documento, ma anche come è costruito.

      Costruito per il back office

      OCR 4 mira alla noia aziendale. Alimenta i sistemi di recupero, le pipeline "RAG" che consentono ai chatbot di rispondere dai file di un'azienda. Fornisce anche agli agenti IA la struttura di cui hanno bisogno per agire, non solo per leggere. Ciò significa compilare moduli, elaborare fatture e eseguire controlli di conformità.

      La sua portata è ampia. Il modello gestisce file PDF, Word, PowerPoint e OpenDocument, e legge 170 lingue in 10 gruppi. Mistral afferma che si mantiene bene con le lingue a bassa risorsa dove i concorrenti falliscono. Gli utenti iniziali stanno digitalizzando archivi, trasformando fatture in campi e estraendo testo pulito da rapporti scientifici.

      OCR 4 si integra anche nel nuovo Search Toolkit di Mistral, un framework open-source che l'azienda ha presentato al suo AI Now Summit. L'output strutturato del modello si inserisce direttamente in quella pipeline. L'obiettivo è fornire agli sviluppatori input pronti per la citazione, in modo che una risposta possa puntare di nuovo alla pagina da cui proviene.

      Le affermazioni sulla velocità fanno parte della vendita. Anaqua, che gestisce le pratiche di proprietà intellettuale, ha dichiarato che il modello funziona circa quattro volte più veloce per pagina rispetto al suo strumento precedente. Per l'archiviazione ad alto volume, dove le scadenze sono implacabili, quel ritmo decide se un flusso di lavoro può scalare.

      Si inserisce nella spinta di Mistral oltre i chatbot. L'azienda vende già IA industriale a Airbus, BMW ed EDF, e il lavoro sui documenti è la stessa scommessa aziendale con un altro nome.

      La proposta di sovranità

      La caratteristica principale per gli acquirenti europei è dove il modello funziona. OCR 4 è abbastanza piccolo da adattarsi a un singolo contenitore. Quindi un'azienda può ospitarlo sulla propria infrastruttura e mantenere i documenti sensibili in casa.

      Questo si allinea con il messaggio centrale di Mistral. L'azienda si propone come l'alternativa sovrana europea all'IA americana, e l'auto-ospitazione risponde alle preoccupazioni sulla residenza dei dati che accompagnano le regole di sovranità sempre più rigide dell'Europa. Per banche, ospedali e governi, mantenere la burocrazia sul suolo nazionale è fondamentale.

      Economico, e quasi ovunque

      Il prezzo sembra aggressivo. L'API costa $4 per 1.000 pagine, dimezzandosi a $2 in modalità batch. Un prodotto Document AI di livello superiore, che rimodella l'output in campi personalizzati, costa $5 per 1.000 pagine. Un cliente, la società di ricerca finanziaria Rogo, ha affermato di avere un'accuratezza simile a quella del suo vecchio fornitore a un costo circa otto volte inferiore.

      La distribuzione è ampia. OCR 4 è attivo attraverso lo studio di Mistral, Amazon SageMaker e Foundry di Microsoft, con supporto Snowflake in arrivo. Mistral, ora valutata quasi €20 miliardi in trattative di finanziamento fresche, sta assicurandosi che i suoi strumenti si integrino nei cloud che i suoi clienti utilizzano già.

      Microsoft ha definito il lancio un traguardo nella sua partnership con Mistral. Quell'approvazione ha peso. Direziona il modello verso gli acquirenti aziendali che già si trovano all'interno del cloud di Microsoft e offre a Mistral un canale di distribuzione che non potrebbe mai costruire da sola.

      La strategia rimane coerente. Nell'ultimo anno, Mistral si è integrata nel software aziendale piuttosto che inseguire l'hype dei consumatori. Un lettore di documenti economico e auto-ospitabile si adatta perfettamente a quel piano, perché attira i clienti nel resto della sua offerta.

      Il caso per la cautela

      I benchmark meritano una lettura attenta. Mistral è in cima all'OlmOCRBench pubblico (85.20) e al suo stesso test multilingue. Ma l'azienda definisce quei punteggi "direzionali". Ammette che i benchmark giudicano male la matematica e il testo a colonne multiple, e che ha riprodotto ogni figura dei concorrenti da sola. La percentuale di vittoria del 72% appare più solida, perché gli esseri umani hanno giudicato documenti reali.

      Ci sono anche limiti all'uso. Mistral è chiara nel dire che OCR 4 legge documenti, non decide su di essi. Afferma che il modello non è per diagnosi mediche, giudizi legali o finanza ad alto rischio. Estrae le parole; un umano deve comunque prendere la decisione.

      Il mercato appare affollato. Google, AWS e una serie di startup vendono tutti documenti AI. Il vantaggio di Mistral deriva dalla combinazione: output strutturato, basso costo e una versione che puoi eseguire tu stesso. Se questo vincerà nel back office, contro cloud molto più grandi, rimane la domanda aperta. Per ora, il campione dell'IA europea ha deciso che i documenti noiosi valgono la pena di essere combattuti.

Altri articoli

Il nuovo trailer di One Piece è qui, ma perché Netflix lo sta rifacendo adesso? Il nuovo trailer di One Piece è qui, ma perché Netflix lo sta rifacendo adesso? La prima stagione del remake di One Piece di Netflix copre solo 50 capitoli del manga, con l'originale doppiatrice di Luffy, Mayumi Tanaka, che torna. Sciopero dei robot Hyundai: il sindacato vota per combattere l'automazione Sciopero dei robot Hyundai: il sindacato vota per combattere l'automazione I lavoratori della Hyundai hanno votato il 92% per autorizzare uno sciopero, chiedendo un veto sui robot che stanno per invadere le sue fabbriche. Potrebbe seguire uno sciopero dei robot della Hyundai. Prenderei questa offerta per la tastiera 8BitDo del Prime Day prima di acquistare un'altra noiosa tastiera da gioco. Prenderei questa offerta per la tastiera 8BitDo del Prime Day prima di acquistare un'altra noiosa tastiera da gioco. La tastiera meccanica ispirata a Xbox di 8BitDo riceve uno sconto per il Prime Day, mescolando nostalgia verde trasparente, connettività wireless, interruttori hot-swappable e un layout a 87 tasti per un aggiornamento della scrivania più interessante. Riviera Partners acquisisce la startup di reclutamento AI Lateral Labs mentre la guerra per i talenti rimodella la ricerca di dirigenti Riviera Partners acquisisce la startup di reclutamento AI Lateral Labs mentre la guerra per i talenti rimodella la ricerca di dirigenti La società di ricerca esecutiva Riviera Partners ha acquisito Lateral Labs, una startup di reclutamento AI i cui clienti includono Cursor ed ElevenLabs. Ferrari sostituisce il suo responsabile marketing un mese dopo che la rivelazione della Luce EV ha fatto perdere miliardi al suo titolo. Ferrari sostituisce il suo responsabile marketing un mese dopo che la rivelazione della Luce EV ha fatto perdere miliardi al suo titolo. Il lungo CMO di Ferrari, Enrico Galliera, lascia dopo 16 anni. Il suo sostituto, l'ex capo di BMW Italia Di Silvestre, inizia il 1° luglio. xLight EUV scommessa: raccolta di $350 milioni punta a ASML xLight EUV scommessa: raccolta di $350 milioni punta a ASML La scommessa xLight EUV: la startup sostenuta dagli Stati Uniti sta raccogliendo 350 milioni di dollari per competere con ASML, mentre un'azienda olandese punta a Nvidia.

Mistral OCR 4: economico, intelligenza artificiale per documenti self-hosted

Mistral OCR 4 trasforma i documenti in dati strutturati, funziona sui tuoi server e parte da $2 per 1.000 pagine. La scommessa del back-office europeo.