Mistral OCR 4: дешевый, саморазмещаемый ИИ для документов
Mistral OCR 4 читает документ как структурированную карту, а не как стену текста. Он дешевый, поддерживает 170 языков и может полностью работать на ваших собственных серверах. Европейский чемпион в области ИИ нацеливается на офисные процессы предприятий.
Mistral представила новую модель, и это не чат-бот. Французская компания 23 июня выпустила Mistral OCR 4, систему, которая превращает документы в структурированные данные, как говорится в блоге. Модель остается компактной и сосредоточенной, преследуя одну огромную цель: мировую бумажную работу.
Оптическое распознавание символов существует уже несколько десятилетий. Основное преимущество этой модели заключается в том, что она возвращает. Более старые системы преобразуют страницу в чистый текст. OCR 4 возвращает карту страницы, где каждый блок помечен и расположен. Независимые аннотаторы предпочли ее всем конкурентам, с которыми работали, как утверждает Mistral, со средней долей победы 72%.
От страницы к структурированной карте
OCR 4 делает три новых вещи одновременно. Он рисует ограничивающие рамки вокруг каждого элемента, чтобы программное обеспечение точно знало, где находится каждая строка. Он классифицирует каждый блок по типу, помечая заголовки, таблицы, уравнения и даже подписи. И он добавляет оценку уверенности, для каждой страницы и каждого слова, чтобы человек знал, какие части нужно перепроверить.
Клиенты просили о ограничивающих рамках больше, чем о любой другой функции, говорит Mistral. Они позволяют приложению указывать на точный источник ответа. В сочетании с типами блоков и оценками уверенности они позволяют делать ссылки, редактировать и проводить человеческую проверку. Выход также приходит в виде чистого markdown. 💜 технологий ЕС
Последние новости из мира технологий ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-арта. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас!
Этот сдвиг важен из-за того, что будет дальше. Чат-бот может подвести итоги контракта. Агент должен его подать. Для этого программному обеспечению нужно отличать подпись от промежуточной суммы и знать, где каждая из них находится. OCR 4 предоставляет эту основу, в то время как более старые инструменты возвращали плоский блок слов.
Это четкий разрыв с последней версией. OCR 3 сосредоточился на преобразовании страницы в чистый текст и аккуратные таблицы. OCR 4 возвращает всю структуру. Каждый блок имеет местоположение, тип и оценку. Системы нижнего уровня затем учатся не только тому, что говорит документ, но и тому, как он построен.
Создан для офисных процессов
OCR 4 нацелен на рутинную работу в предприятиях. Он обеспечивает системы извлечения, «RAG» конвейеры, которые позволяют чат-ботам отвечать на основе собственных файлов компании. Он также дает ИИ-агентам структуру, необходимую для действий, а не только для чтения. Это означает заполнение форм, обработку счетов и проведение проверок на соответствие.
Его охват широк. Модель обрабатывает PDF, Word, PowerPoint и OpenDocument файлы и читает 170 языков из 10 групп. Mistral утверждает, что она хорошо работает с языками с низкими ресурсами, где конкуренты терпят неудачу. Ранние пользователи оцифровывают архивы, превращают счета в поля и извлекают чистый текст из научных отчетов.
OCR 4 также подключается к новому инструментарию поиска Mistral, открытому фреймворку, который компания представила на своем саммите AI Now. Структурированный выход модели напрямую попадает в этот конвейер. Цель состоит в том, чтобы предоставить разработчикам готовые к цитированию входные данные, чтобы ответ мог ссылаться на страницу, откуда он пришел.
Заявления о скорости являются частью продажи. Anaqua, которая управляет подачей заявок на интеллектуальную собственность, заявила, что модель работает примерно в четыре раза быстрее на страницу, чем ее предыдущий инструмент. Для высокообъемного документооборота, где сроки жесткие, эта скорость определяет, сможет ли рабочий процесс масштабироваться.
Это вписывается в стремление Mistral выйти за пределы чат-ботов. Компания уже продает промышленный ИИ Airbus, BMW и EDF, и работа с документами является той же ставкой на предприятия, но с другим названием.
Предложение суверенитета
Основная особенность для европейских покупателей заключается в том, где работает модель. OCR 4 достаточно мал, чтобы поместиться в одном контейнере. Таким образом, компания может разместить его на своей собственной инфраструктуре и хранить конфиденциальные документы внутри.
Это соответствует основному сообщению Mistral. Компания позиционирует себя как суверенную альтернативу американскому ИИ в Европе, а самохостинг отвечает на проблемы с местом хранения данных, которые возникают с ужесточением суверенных правил в Европе. Для банков, больниц и правительств хранение документации на родной земле является важным моментом.
Дешево и почти везде
Цена выглядит агрессивной. API стоит 4 доллара за 1000 страниц, уменьшаясь до 2 долларов в пакетном режиме. Более продвинутый продукт Document AI, который преобразует выходные данные в пользовательские поля, стоит 5 долларов за 1000 страниц. Один клиент, финансово-исследовательская компания Rogo, заявила о схожей точности с ее старым поставщиком при примерно восьмикратном снижении стоимости.
Распределение также широко. OCR 4 доступен через собственную студию Mistral, Amazon SageMaker и Foundry от Microsoft, с поддержкой Snowflake в будущем. Mistral, теперь оцененная почти в 20 миллиардов евро в новых переговорах о финансировании, делает все возможное, чтобы ее инструменты находились в облаках, которые уже используют ее клиенты.
Microsoft назвала запуск важной вехой в своем партнерстве с Mistral. Эта поддержка имеет вес. Она направляет модель к корпоративным покупателям, которые уже находятся в облаке Microsoft, и дает Mistral канал распределения, который она никогда не смогла бы создать самостоятельно.
Стратегия остается последовательной. За последний год Mistral интегрировала себя в корпоративное программное обеспечение, а не гналась за потребительским ажиотажем. Дешевый, самохостимый читатель документов идеально вписывается в этот план, потому что он привлекает клиентов в остальную часть его стека.
Аргументы для осторожности
Бенчмарки заслуживают внимательного изучения. Mistral занимает первое место в публичном OlmOCRBench (85.20) и в своем собственном многоязычном тесте. Но компания называет эти оценки «направляющими». Она признает, что бенчмарки неправильно оценивают математику и многостолбцовый текст и что она сама воспроизвела каждую цифру конкурента. Доля победы в 72% выглядит более надежной, потому что реальные документы оценивались людьми.
Существуют также ограничения на использование. Mistral прямо заявляет, что OCR 4 читает документы, но не принимает решения по ним. Она говорит, что модель не предназначена для медицинской диагностики, юридических решений или высоких финансовых рисков. Она извлекает слова; решение все равно принимает человек.
Рынок также выглядит переполненным. Google, AWS и волна стартапов все продают ИИ для документов. Преимущество Mistral заключается в комбинации: структурированный выход, низкая стоимость и версия, которую вы можете запустить сами. Будет ли это победой в офисных процессах против гораздо более крупных облаков, остается открытым вопросом. На данный момент европейский чемпион в области ИИ решил, что скучные документы стоят борьбы.
Другие статьи
Mistral OCR 4: дешевый, саморазмещаемый ИИ для документов
Mistral OCR 4 превращает документы в структурированные данные, работает на ваших собственных серверах и начинается от 2 долларов за 1000 страниц. Ставка на бэк-офис Европы.
