小红书开源黑科技：1.7B参数搞定100种语言OCR

源码 PRO 作者：笑得合不拢腿。 2025-08-19 09:11

dots.ocr，它专为解决文档解析的各种痛点而生。

你只需给它一张复杂的文档图片，它不仅能精准识别出里面的文字、表格和公式，最关键的是，它能保持和人阅读时一样的逻辑顺序进行输出。这一点对于需要连贯上下文的RAG系统来说，是决定性的优势。

核心功能

1. 强大的性能表现 dots.ocr在OmniDocBench基准测试中，在文本、表格和阅读顺序方面达到SOTA性能，同时提供与Doubao-1.5和gemini2.5-pro等大型模型相当的公式识别结果。

2. 多语言支持能力 dots.ocr展示了对低资源语言的强大解析能力，在内部多语言文档基准测试中，在布局检测和内容识别方面都取得了决定性优势。支持100种语言的文档解析，使得构建多语言RAG知识库成为可能。

3. 统一简洁的架构 通过利用单一视觉语言模型，dots.ocr提供了比依赖复杂多模型流水线的传统方法更加精简的架构。

4. 保持阅读顺序 dots.ocr特别强调保持良好的阅读顺序，这对RAG系统至关重要。正确的文本顺序确保了知识片段的逻辑连贯性，使得检索到的内容更容易被大语言模型理解和利用。

评测集对比

在OmniDocBench这个权威测试集上，dots.ocr的表现真的很强

文本识别：Edit距离只有0.032（英文）和0.066（中文），这意味着识别准确率接近完美

表格解析：TEDS得分达到88.6%和89.0%，超越了Gemini 2.5 Pro的85.8%

阅读顺序：Edit距离仅为0.040和0.067，远优于其他竞争对手

GitHub地址：

https://github.com/rednote-hilab/dots.ocr

线上测试地址：

https://dotsocr.xiaohongshu.com

本地安装部署流程

1. 下载安装代码库

# 创建python环境conda create -n dots_ocr python=3.12conda activate dots_ocr# 项目源代码下载git clone https://github.com/rednote-hilab/dots.ocr.gitcd dots.ocr# 安装PyTorch# windows用户可以使用nvidia-smi命令查看自己的cuda版本信息# 请访问 https://pytorch.org/get-started/previous-versions/ 以获取您的对应cuda版本的安装命令pip install torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128# 安装CUDA工具链conda install cuda-toolkit -c nvidia # 安装项目依赖pip install -e .

2. 下载模型权重

# 通过huggingfacepython3 tools/download_model.py# 通过modelscopepython3 tools/download_model.py --type modelscope

3. 利用vllm部署模型

# 将模型下载路径赋值给变量 export hf_model_path=./weights/DotsOCR # 在vLLM的CLI入口文件中动态注入一个自定义模块的导入语句，以便让vLLM支持自定义模型DotsOCR。export PYTHONPATH=$(dirname "$hf_model_path"):$PYTHONPATHsed -i '/^from vllm\.entrypoints\.cli\.main import main$/a\from DotsOCR import modeling_dots_ocr_vllm' `which vllm` # 启动vllm服务CUDA_VISIBLE_DEVICES=0 vllm serve ${hf_model_path} --tensor-parallel-size 1 --gpu-memory-utilization 0.95 --chat-template-content-format string --served-model-name model --trust-remote-code# 测试vllm apipython3 ./demo/demo_vllm.py --prompt_mode prompt_layout_all_en

4. 利用Hugginface 推理

python3 demo/demo_hf.py

5. 文档解析

# 解析版本所有信息（版面结构+文字识别）# 图片解析python3 dots_ocr/parser.py demo/demo_image1.jpg# PDF解析python3 dots_ocr/parser.py demo/demo_pdf1.pdf --num_thread 64# 仅检查版面结构python3 dots_ocr/parser.py demo/demo_image1.jpg --prompt prompt_layout_only_en# 仅提取文字内容python3 dots_ocr/parser.py demo/demo_image1.jpg --prompt prompt_ocr# 通过边界线解析布局python3 dots_ocr/parse--prompt prompt_grounding_ocr --bbox r.py demo/demo_image1.jpg 1632411536705

您可以使用以下命令运行演示

python demo/demo_gradio.py