Mistral OCR 4: дешевый, самостоятельно размещаемый ИИ для документов

      Mistral OCR 4 читает документ как структурированную карту, а не как стену текста. Он дешевый, поддерживает 170 языков и может полностью работать на ваших собственных серверах. Европейский чемпион в области ИИ нацеливается на бэк-офис предприятий.

      Mistral представила новую модель, и это не чат-бот. Французская компания 23 июня выпустила Mistral OCR 4, систему, которая превращает документы в структурированные данные, как говорится в блоге. Модель остается компактной и сосредоточенной, преследуя одну огромную цель: мировую бумажную работу.

      Оптическое распознавание символов существует уже несколько десятилетий. Основное внимание здесь уделяется тому, что возвращает модель. Более старые системы преобразуют страницу в чистый текст. OCR 4 возвращает карту страницы, с каждым блоком, помеченным и расположенным. Независимые аннотаторы предпочли ее всем конкурентным системам, которые были протестированы, как заявила Mistral, со средней долей победы 72%.

      От страницы к структурированной карте

      OCR 4 делает три новых вещи одновременно. Он рисует ограничивающие рамки вокруг каждого элемента, чтобы программное обеспечение точно знало, где находится каждая строка. Он классифицирует каждый блок по типу, отмечая заголовки, таблицы, уравнения и даже подписи. И он добавляет оценку уверенности, для каждой страницы и для каждого слова, чтобы человек знал, какие части нужно перепроверить.

      Клиенты просили о ограничивающих рамках больше, чем о любой другой функции, сказала Mistral. Они позволяют приложению указывать на точный источник ответа. В сочетании с типами блоков и оценками уверенности они позволяют делать ссылки, редактировать и проводить человеческую проверку. Выход также приходит в виде чистого markdown. 💜 технологий ЕС

      Последние события на технологической сцене ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных ИИ-артов. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас!

      Этот сдвиг важен из-за того, что будет дальше. Чат-бот может подвести итоги контракта. Агент должен его подать. Для этого программному обеспечению нужно отличать подпись от промежуточной суммы и знать, где каждая из них находится. OCR 4 предоставляет эту основу, в то время как более старые инструменты возвращали плоский блок слов.

      Это четкий разрыв с последней версией. OCR 3 сосредоточилась на превращении страницы в чистый текст и аккуратные таблицы. OCR 4 возвращает всю структуру. Каждый блок имеет местоположение, тип и оценку. Системы downstream затем учатся не только тому, что говорит документ, но и тому, как он построен.

      Создан для бэк-офиса

      OCR 4 нацелена на рутинную работу в предприятиях. Она питает системы извлечения, «RAG» каналы, которые позволяют чат-ботам отвечать на основе собственных файлов компании. Она также предоставляет ИИ-агентам структуру, необходимую для действий, а не только для чтения. Это означает заполнение форм, обработку счетов и проведение проверок на соответствие.

      Ее охват широк. Модель обрабатывает PDF, Word, PowerPoint и OpenDocument файлы и читает 170 языков из 10 групп. Mistral утверждает, что она хорошо работает с языками с низкими ресурсами, где конкуренты терпят неудачу. Ранние пользователи оцифровывают архивы, превращая счета в поля и извлекая чистый текст из научных отчетов.

      OCR 4 также подключается к новому инструментарию поиска Mistral, открытому фреймворку, который компания представила на своем саммите AI Now. Структурированный выход модели напрямую поступает в этот канал. Цель состоит в том, чтобы предоставить разработчикам готовые к цитированию входные данные, чтобы ответ мог ссылаться на страницу, с которой он пришел.

      Заявления о скорости являются частью продажи. Anaqua, управляющая подачей заявок на интеллектуальную собственность, заявила, что модель работает примерно в четыре раза быстрее на страницу, чем ее предыдущий инструмент. Для высокообъемного дактилоскопирования, где сроки жесткие, эта скорость определяет, сможет ли рабочий процесс масштабироваться.

      Это вписывается в стремление Mistral выйти за рамки чат-ботов. Компания уже продает промышленный ИИ Airbus, BMW и EDF, и работа с документами - это та же ставка на предприятие под другим названием.

      Предложение о суверенитете

      Основная особенность для европейских покупателей заключается в том, где работает модель. OCR 4 достаточно мала, чтобы поместиться в одном контейнере. Таким образом, компания может разместить ее на своей собственной инфраструктуре и хранить конфиденциальные документы внутри.

      Это соответствует основному сообщению Mistral. Компания позиционирует себя как суверенную альтернативу американскому ИИ, и самохостинг отвечает на проблемы с местом хранения данных, которые возникают с ужесточением суверенных правил в Европе. Для банков, больниц и правительств хранение бумажной работы на родной земле - это суть.

      Дешево и почти повсюду

      Цена выглядит агрессивной. API стоит 4 доллара за 1000 страниц, снижаясь до 2 долларов в пакетном режиме. Более высокий уровень продукта Document AI, который преобразует выходные данные в пользовательские поля, стоит 5 долларов за 1000 страниц. Один клиент, финансово-исследовательская компания Rogo, заявила о схожей точности с ее старым поставщиком при примерно восьмикратной экономии.

      Распределение также широко. OCR 4 доступна через собственную студию Mistral, Amazon SageMaker и Foundry от Microsoft, с поддержкой Snowflake в будущем. Mistral, теперь оцененная почти в 20 миллиардов евро в новых переговорах о финансировании, делает все возможное, чтобы ее инструменты находились внутри облаков, которые уже используют ее клиенты.

      Microsoft назвала запуск вехой в своем партнерстве с Mistral. Эта поддержка имеет вес. Она направляет модель к корпоративным покупателям, которые уже находятся внутри облака Microsoft, и предоставляет Mistral канал распределения, который он никогда не смог бы построить самостоятельно.

      Стратегия остается последовательной. За последний год Mistral интегрировалась в корпоративное программное обеспечение, а не гналась за потребительским ажиотажем. Дешевый, самохостимый читатель документов идеально вписывается в этот план, потому что он привлекает клиентов в остальную часть его стека.

      Случай для осторожности

      Бенчмарки заслуживают внимательного изучения. Mistral занимает первое место в публичном OlmOCRBench (85.20) и в своем собственном многоязычном тесте. Но компания называет эти оценки «направляющими». Она признает, что бенчмарки неправильно оценивают математику и многостолбцовый текст, и что она воспроизвела каждую цифру конкурента сама. Доля победы в 72% выглядит более надежной, потому что люди оценивали реальные документы.

      Существуют также ограничения на использование. Mistral прямо заявляет, что OCR 4 читает документы, но не принимает решения по ним. Она говорит, что модель не предназначена для медицинской диагностики, юридических решений или высоких финансовых рисков. Она извлекает слова; человек все равно принимает решение.

      Рынок также выглядит переполненным. Google, AWS и волна стартапов все продают ИИ для документов. Преимущество Mistral заключается в комбинации: структурированный выход, низкая стоимость и версия, которую вы можете запустить сами. Сможет ли это победить в бэк-офисе, против гораздо более крупных облаков, остается открытым вопросом. На данный момент европейский чемпион в области ИИ решил, что скучные документы стоят борьбы.

Другие статьи

Голосование Палаты представителей по законопроекту о затратах на энергию для центров обработки данных ИИ Голосование Палаты представителей по законопроекту о затратах на энергию для центров обработки данных ИИ Конгресс хочет, чтобы крупные технологические компании покрывали расходы на энергоснабжение центров обработки данных ИИ. На этой неделе комитет Палаты представителей голосует за то, чтобы исключить расходы на развитие ИИ из счетов за электроэнергию домохозяйств. Прогноз по количеству гуманоидных роботов в Китае удвоился до 50 000 Прогноз по количеству гуманоидных роботов в Китае удвоился до 50 000 Morgan Stanley удвоил свой прогноз по количеству гуманоидных роботов в Китае до 50,000 в этом году, что стало его вторым повышением, поскольку машины достигают настоящих фабрик и магазинов. Deezer запускает инструмент для ремиксов, который не использует ИИ и платит артистам за каждый поток. Deezer запускает инструмент для ремиксов, который не использует ИИ и платит артистам за каждый поток. Remix Lab от Deezer позволяет фанатам делать ремиксы на песни с согласия артистов, используя инструменты в приложении, а не ИИ, и выплачивает роялти за каждую трансляцию ремиксированных треков. Этот робот-пылесос Roborock только что получил огромную скидку, и это может стать самым умным обновлением вашего дома этим летом. Этот робот-пылесос Roborock только что получил огромную скидку, и это может стать самым умным обновлением вашего дома этим летом. Роботы-пылесосы значительно эволюционировали и уже не являются просто новинками. Современные премиум-модели не просто убирают ваши полы; они создают карту вашего дома, избегают препятствий, моют твердые поверхности и берут на себя одну из самых трудоемких домашних работ с минимальным участием владельцев. Именно поэтому Roborock Qrevo S Pro стал одним из […] Страйк роботов Hyundai: профсоюз голосует за борьбу с автоматизацией Страйк роботов Hyundai: профсоюз голосует за борьбу с автоматизацией Рабочие Hyundai проголосовали за разрешение на забастовку с 92% голосов, требуя права вето на роботов, которые должны заполнить их заводы. Забастовка роботов Hyundai может последовать. Голосование Палаты представителей по законопроекту о затратах на энергию для центров обработки данных ИИ Голосование Палаты представителей по законопроекту о затратах на энергию для центров обработки данных ИИ Конгресс хочет, чтобы крупные технологии покрывали расходы на энергию центров обработки данных ИИ. На этой неделе комитет Палаты представителей голосует за то, чтобы исключить расходы на развитие ИИ из счетов за электроэнергию домохозяйств.

Mistral OCR 4: дешевый, самостоятельно размещаемый ИИ для документов

Mistral OCR 4 превращает документы в структурированные данные, работает на ваших собственных серверах и стоит от 2 долларов за 1000 страниц. Ставка на бэк-офис Европы.