Mistral OCR 4: barato, inteligencia artificial de documentos autoalojada
Mistral OCR 4 lee un documento como un mapa estructurado, no como una pared de texto. Es barato, habla 170 idiomas y puede funcionar completamente en sus propios servidores. El campeón de IA de Europa está atacando la oficina administrativa de las empresas.
Mistral tiene un nuevo modelo, y no es un chatbot. La empresa francesa lanzó el 23 de junio Mistral OCR 4, un sistema que convierte documentos en datos estructurados, dijo en una publicación de blog. El modelo se mantiene pequeño y enfocado, persiguiendo un enorme objetivo: la burocracia mundial.
El reconocimiento óptico de caracteres ha existido durante décadas. La propuesta aquí es lo que devuelve el modelo. Los sistemas más antiguos convierten una página en texto limpio. OCR 4 devuelve un mapa de la página, con cada bloque etiquetado y ubicado. Los anotadores independientes lo prefirieron a todos los sistemas rivales probados, dijo Mistral, con una tasa de éxito promedio del 72%.
De página a mapa estructurado
OCR 4 hace tres cosas nuevas a la vez. Dibuja cuadros delimitadores alrededor de cada elemento, para que el software sepa exactamente dónde se encuentra cada línea. Clasifica cada bloque por tipo, marcando títulos, tablas, ecuaciones e incluso firmas. Y añade un puntaje de confianza, por página y por palabra, para que un humano sepa qué partes verificar.
Los clientes pidieron cuadros delimitadores más que cualquier otra característica, dijo Mistral. Permiten que una aplicación señale la fuente exacta de una respuesta. Combinados con tipos de bloques y puntajes de confianza, permiten citas, redacciones y revisión humana. La salida también llega como markdown limpio.
El 💜 de la tecnología de la UE
Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora!
El cambio es importante por lo que viene después. Un chatbot puede resumir un contrato. Un agente tiene que archivarlo. Para eso, el software necesita distinguir una firma de un subtotal y saber dónde se encuentra cada uno. OCR 4 proporciona esa estructura, donde las herramientas más antiguas devolvían un bloque plano de palabras.
Marca una clara ruptura con la última versión. OCR 3 se centró en convertir una página en texto limpio y tablas ordenadas. OCR 4 devuelve toda la estructura en su lugar. Cada bloque lleva una ubicación, un tipo y un puntaje. Los sistemas posteriores aprenden no solo lo que dice un documento, sino cómo está construido.
Construido para la oficina administrativa
OCR 4 se dirige a la rutina empresarial. Alimenta sistemas de recuperación, las tuberías “RAG” que permiten a los chatbots responder desde los propios archivos de una empresa. También proporciona a los agentes de IA la estructura que necesitan para actuar, no solo para leer. Eso significa llenar formularios, procesar facturas y realizar verificaciones de cumplimiento.
Su alcance es amplio. El modelo maneja archivos PDF, Word, PowerPoint y OpenDocument, y lee 170 idiomas en 10 grupos. Mistral dice que se mantiene firme en idiomas de bajos recursos donde los rivales fallan. Los primeros usuarios están digitalizando archivos, convirtiendo facturas en campos y extrayendo texto limpio de informes científicos.
OCR 4 también se conecta al nuevo Search Toolkit de Mistral, un marco de código abierto que la empresa presentó en su AI Now Summit. La salida estructurada del modelo se integra directamente en esa tubería. El objetivo es proporcionar a los desarrolladores entradas listas para citas, para que una respuesta pueda señalar de vuelta a la página de la que proviene.
Las afirmaciones de velocidad son parte de la venta. Anaqua, que gestiona presentaciones de propiedad intelectual, dijo que el modelo funciona aproximadamente cuatro veces más rápido por página que su herramienta anterior. Para el registro de alto volumen, donde los plazos son implacables, ese ritmo decide si un flujo de trabajo se escala.
Se integra en el impulso de Mistral más allá de los chatbots. La empresa ya vende IA industrial a Airbus, BMW y EDF, y el trabajo documental es la misma apuesta empresarial con otro nombre.
La propuesta de soberanía
La característica principal para los compradores europeos es dónde se ejecuta el modelo. OCR 4 es lo suficientemente pequeño como para caber en un solo contenedor. Así que una empresa puede alojarlo en su propia infraestructura y mantener documentos sensibles en casa.
Eso se alinea con el mensaje central de Mistral. La empresa se presenta como la alternativa soberana de Europa a la IA estadounidense, y el autoalojamiento responde a las preocupaciones sobre la residencia de datos que vienen con las reglas de soberanía cada vez más estrictas de Europa. Para bancos, hospitales y gobiernos, mantener la burocracia en suelo nacional es el objetivo.
Barato y casi en todas partes
El precio parece agresivo. La API cuesta $4 por 1,000 páginas, reduciéndose a $2 en modo por lotes. Un producto de Document AI de nivel superior, que reconfigura la salida en campos personalizados, cuesta $5 por 1,000 páginas. Un cliente, la firma de investigación financiera Rogo, afirmó tener una precisión similar a su antiguo proveedor a un costo aproximadamente ocho veces menor.
La distribución también es amplia. OCR 4 está disponible a través del propio estudio de Mistral, Amazon SageMaker y Foundry de Microsoft, con soporte de Snowflake en camino. Mistral, ahora valorada cerca de €20 mil millones en nuevas conversaciones de financiamiento, se asegura de que sus herramientas estén dentro de las nubes que sus clientes ya utilizan.
Microsoft calificó el lanzamiento como un hito en su asociación con Mistral. Ese respaldo tiene peso. Dirige el modelo hacia los compradores empresariales que ya están dentro de la nube de Microsoft y le da a Mistral un canal de distribución que nunca podría construir solo.
La estrategia se mantiene consistente. Durante el último año, Mistral se ha integrado en el software empresarial en lugar de perseguir el bombo de los consumidores. Un lector de documentos barato y autoalojable se ajusta perfectamente a ese plan, porque atrae a los clientes hacia el resto de su pila.
El caso de la precaución
Los puntos de referencia merecen una lectura cuidadosa. Mistral encabeza el OlmOCRBench público (85.20) y su propia prueba multilingüe. Pero la empresa llama a esas puntuaciones “direccionales”. Admite que los puntos de referencia malinterpretan las matemáticas y el texto en múltiples columnas, y que reprodujo cada figura de competidor por sí misma. La tasa de éxito del 72% parece más firme, porque los humanos juzgaron documentos reales.
También hay límites en el uso. Mistral es claro en que OCR 4 lee documentos, no decide sobre ellos. Dice que el modelo no es para diagnóstico médico, juicio legal o finanzas de alto riesgo. Extrae las palabras; un humano aún toma la decisión.
El mercado también parece abarrotado. Google, AWS y una ola de startups venden IA documental. La ventaja de Mistral proviene de la combinación: salida estructurada, bajo costo y una versión que puedes ejecutar tú mismo. Si eso gana la oficina administrativa, frente a nubes mucho más grandes, sigue siendo la pregunta abierta. Por ahora, el campeón de IA de Europa ha decidido que los documentos aburridos valen la pena luchar.
Otros artículos
Mistral OCR 4: barato, inteligencia artificial de documentos autoalojada
Mistral OCR 4 convierte documentos en datos estructurados, se ejecuta en sus propios servidores y comienza en $2 por 1,000 páginas. La apuesta de Europa por el back-office.
