OCR新王Mistral1000页仅1美元GPT4oGoogle被超越

如何让 AI 读懂你的 PDF 文档?OCR 是一个绕不开的话题。

OCR ,中文名:光学字符识别,全称:Optical Character Recognition,是一种 将图片或扫描文档中的文字转换为可编辑、可搜索的文本 的技术。OCR 的核心原理是通过计算机视觉识别字符形状,再利用机器学习和深度学习模型进行智能匹配,从而精准还原原始文本内容。比如,当你扫描一张纸质文档,OCR 可以识别并提取其中的文字,使其可以被编辑、复制或用于搜索。

小火箭shadowrocket

虽然 OCR 技术已广泛应用,但传统 OCR 解决方案往往局限于简单的印刷文本识别,当面对复杂文档(表格、公式、图像)、多语言内容(不同字体、手写体、特殊字符)、非标准排版时,往往难以满足高精度需求。

近日,号称“欧洲的 OpenAI”的 Mistral AI 发布了一款全新的 OCR API —— Mistral OCR。

Mistral OCR 支持 PDF 和图片输入,主打精准解析文档里的全部元素,包括文本、表格、数学公式、图片,多语言支持自然是标配,并且可以还原复杂排版,并输出结构化数据(比如 JSON、Markdown)。

更更重要的是,Mistral OCR 极具性价比,每 1000 页 定价为 1 美元,批量推理模式下单位成本更低(约为单页推理的一半)。

综合来看,Mistral OCR 非常适合多模态检索和 AI 问答系统,比如以 RAG(检索增强生成)为核心的 AI 知识库。

小火箭shadowrocket

从官方给出的案例来看,Mistral OCR 对复杂文档元素的解析能力是 TOP 级别的,比如图片、LaTeX 数学公式、表格。

1. 图片

扫描版:

小火箭shadowrocket

Mistral OCR 识别后:

小火箭shadowrocket

2. LaTeX 数学公式

扫描版:

小火箭shadowrocket

Mistral OCR 识别后:

小火箭shadowrocket

说一句完美不过分吧。

3. 文档

扫描版:

小火箭shadowrocket

Mistral OCR 识别后:

小火箭shadowrocket

在基准测试中,Mistral OCR 的表现更是“遥遥领先”。

Model

综合评分

数学公式

多语言

扫描文档

表格解析

Google Document AI

83.42

80.29

86.42

92.77

78.16

Azure OCR

89.52

85.72

87.52

94.65

89.52

Gemini-1.5-Flash-002

90.23

89.11

86.76

94.87

90.48

Gemini-1.5-Pro-002

89.92

88.48

86.33

96.15

89.71

Gemini-2.0-Flash-001

88.69

84.18

85.80

95.11

91.46

GPT-4o-2024-11-20

89.77

87.55

86.00

94.58

91.70

Mistral OCR 2503

94.89

94.29

89.55

98.96

96.12

小火箭shadowrocket

Mistral OCR 支持原生多语言,据称可处理数千种不同的语言、字体和字符集。在多语言识别的基准测试中,Mistral OCR 2503 取得了99.02% 的模糊匹配准确率,依旧是全场领先。

小火箭shadowrocket

而对中文的解析准确率,更是达到了史无前例的高,97.11%。

小火箭shadowrocket

处理速度方面,Mistral OCR 采用轻量级架构,官方称单节点处理速度高达 2000 页每分钟,适用于高吞吐量场景。

输出方面,Mistral OCR 支持结构化输出。Mistral 官方把这个功能称作:文档即提示(Doc-as-Prompt),也即直接把输入文档作为提示词,提供 JSON、Markdown 等结构化输出。该功能适用于自动化流程和下游任务,如:提取关键信息、格式化数据、AI Agent。

怎么用 Mistral OCR

直接在 Mistral 的 Le Chat 平台免费使用

API:在 la Plateforme 上访问

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/314.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>