OCR新王Mistral1000页仅1美元GPT4oGoogle被超越
如何让 AI 读懂你的 PDF 文档?OCR 是一个绕不开的话题。
OCR ,中文名:光学字符识别,全称:Optical Character Recognition,是一种 将图片或扫描文档中的文字转换为可编辑、可搜索的文本 的技术。OCR 的核心原理是通过计算机视觉识别字符形状,再利用机器学习和深度学习模型进行智能匹配,从而精准还原原始文本内容。比如,当你扫描一张纸质文档,OCR 可以识别并提取其中的文字,使其可以被编辑、复制或用于搜索。
虽然 OCR 技术已广泛应用,但传统 OCR 解决方案往往局限于简单的印刷文本识别,当面对复杂文档(表格、公式、图像)、多语言内容(不同字体、手写体、特殊字符)、非标准排版时,往往难以满足高精度需求。
近日,号称“欧洲的 OpenAI”的 Mistral AI 发布了一款全新的 OCR API —— Mistral OCR。
Mistral OCR 支持 PDF 和图片输入,主打精准解析文档里的全部元素,包括文本、表格、数学公式、图片,多语言支持自然是标配,并且可以还原复杂排版,并输出结构化数据(比如 JSON、Markdown)。
更更重要的是,Mistral OCR 极具性价比,每 1000 页 定价为 1 美元,批量推理模式下单位成本更低(约为单页推理的一半)。
综合来看,Mistral OCR 非常适合多模态检索和 AI 问答系统,比如以 RAG(检索增强生成)为核心的 AI 知识库。
从官方给出的案例来看,Mistral OCR 对复杂文档元素的解析能力是 TOP 级别的,比如图片、LaTeX 数学公式、表格。
1. 图片
扫描版:
Mistral OCR 识别后:
2. LaTeX 数学公式
扫描版:
Mistral OCR 识别后:
说一句完美不过分吧。
3. 文档
扫描版:
Mistral OCR 识别后:
在基准测试中,Mistral OCR 的表现更是“遥遥领先”。
Model
综合评分
数学公式
多语言
扫描文档
表格解析
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12
Mistral OCR 支持原生多语言,据称可处理数千种不同的语言、字体和字符集。在多语言识别的基准测试中,Mistral OCR 2503 取得了99.02% 的模糊匹配准确率,依旧是全场领先。
而对中文的解析准确率,更是达到了史无前例的高,97.11%。
处理速度方面,Mistral OCR 采用轻量级架构,官方称单节点处理速度高达 2000 页每分钟,适用于高吞吐量场景。
输出方面,Mistral OCR 支持结构化输出。Mistral 官方把这个功能称作:文档即提示(Doc-as-Prompt),也即直接把输入文档作为提示词,提供 JSON、Markdown 等结构化输出。该功能适用于自动化流程和下游任务,如:提取关键信息、格式化数据、AI Agent。
怎么用 Mistral OCR
直接在 Mistral 的 Le Chat 平台免费使用
API:在 la Plateforme 上访问
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/314.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论