您的位置：0XUCN > 资讯 > 源码

新闻分类

科技
- 通信
- 数码
- 科学
互联网
- 融资
- 新零售
- 企服
- 共享
- 教育
- 医疗
- 物联网
- 安全
- 智能
- 政策
- 动态
- 技术
- 软件
娱乐
- 电影
- 电视剧
- 综艺
- 动漫
- 音乐
- 明星
- 网娱
- 韩娱
- 热点
- 值得买
游戏
- 手游
- 端游
- 页游
- 主机
- 公告
- 攻略
体育
- 业界
- 足球
- 篮球
- 彩票
汽车
- 车讯
- 新车
- 评测
时尚
- 奢侈品
- 时装
- 美妆
- 美体
健康
- 疾病
- 两性
- 健美
- 医美
- 养生
- 新冠
旅游
母婴
- 孕产
- 哺育
- 早教
- 亲子
- 萌娃
房产
- 资讯
- 家居
- 家电
教育
- 高考
- 考研
- 公考
- 留学
- 高校
- 小初高
宠物
- 资讯
- 百科
- 训练
- 常识
- 宠物用品
其它
造数

MinerU将pdf，word等文档转为数据集

源码 PRO 作者：免子包围熊 2025-08-19 08:53

MinerU为开源的将pdf、word等文档转为markdown文件的工具文档

安装

下载：

git clone https://github.com/opendatalab/MinerU.git

创建Conda环境

conda create -n MinerU 'python=3.12' -y

启动conda环境

conda activate MinerU

只安装pdf转markdown

pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple

完整安装

pip install "mineru[all]>=2.0.0" -i https://mirrors.aliyun.com/pypi/simple

下载模型权重文件 linux下

pip install huggingface_hub

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

python download_models_hf.py

方式一：

pip install huggingface_hub

curl -o download_models_hf.py https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py

python download_models_hf.py

方式二：

pip install modelscope

curl -o download_models.py https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py

python download_models.py

新版本这种方法弃用了，直接运行就可以自动下载模型

下载完成后，系统会自动在用户目录下生成magic-pdf.json配置文件

Windows：C:\Users\用户名

Linux：/home/用户名

macOS：/Users/用户名

使用 CUDA 加速

修改【用户目录】中配置文件 magic-pdf.json 中”device-mode”的值

{ "device-mode":"cuda" }

覆盖安装支持 cuda 的 torch 和 torchvision

CUDA11.8

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

CUDA12.4

pip install --force-reinstall torch==2.6.0 torchvision==0.21.1 "numpy<2.0.0" --index-url https://download.pytorch.org/whl/cu124

CUDA12.6

pip install --force-reinstall torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

如果使用CUDA12.8建议使用torch 2.7.0

开启OCR加速

pip install paddlepaddle-gpu==2.6.1

测试如果只安装了magic-pdf则使用以下指令

magic-pdf -p small_ocr.pdf -o ./output

完全安装

mineru -p small_ocr.pdf -o ./output

gradio_app: 基于 Gradio 的 Web 应用

pip install gradio gradio-pdf

安装easy dataset

将 markdown 文件转为 json 格式的数据集文档

客户端安装

github下载：https://github.com/ConardLi/easy-dataset/releases

网盘下载：https://pan.quark.cn/s/ef8d0ef3785a

源码安装

下载：

git clone https://github.com/ConardLi/easy-dataset.git

NPM 启动

cd easy-dataset

安装依赖：

npm install

编译

npm run build

启动服务器

npm run start

docker启动

下载：

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

构建 Docker 镜像：

docker build -t easy-dataset .

运行容器：

docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

npm install时报错

删除 node_modules 目录和 package-lock.json

这是关闭赞助提示的，可以不用关闭

npm config set fund false --location=global

跳过本次安装的审计

npm install --no-audit

全局关闭审计（不推荐生产环境）

npm set audit false

重新安装

npm install

最后再分享一个快速将情景对话转为 sharegpt 格式的多轮对话数据集的方法：

import json import queue import re from openai import OpenAI import requests class RemoteModelInstance: model_client = None headers = { "Content-Type": "application/json" } def __init__(self, **kwargs): self.base_url = kwargs.get("base_url", "http://127.0.0.1:1234/v1") self.api_key = kwargs.get("api_key", "lm-studio") self.sys_prompt = kwargs.get("sys_prompt", "你是一个ai助手") self.api_type = kwargs.get("api_type", "openai") self.model_name = kwargs.get("model_name", "qwen3-32b") if self.api_type == "openai"or self.api_type == 'lmstudio'or self.api_type == 'lm-studio': self.model_client = OpenAI(base_url=self.base_url, api_key=self.api_key) def single_request(self, content, **kwargs): try: conversion = [ {"role": "system", "content": self.sys_prompt}, {"role": "user", "content": content} ] response = "" if self.api_type == "openai": response = self.model_client.chat.completions.create( model=self.model_name, messages=conversion, **kwargs ) elif self.api_type == "ollama": data = { "model": self.model_name, "messages": conversion, "stream": False } response = requests.post(self.base_url, headers=self.headers, json=data).json() response = response.get("message")["content"] else: return response parts = re.split(r'</think>.*', response, maxsplit=1, flags=0) if len(parts) > 1: response = ' '.join(parts[1:]) else: response = parts[0] return response except Exception as e: print(f"model request Error: {e}") returnNone base_sys_prompt = '你是一个数据标注工程师，你需要将我给的对话片段转换为标准JSON对话格式。' base_sys_prompt += '要求：1. 只需输出结果，不要任何分析解释。' base_sys_prompt += '2. 格式必须严格遵循这个示例：{"conversations": [{"role": "user/assistant","content": "合并后的对话内容和上下文描述"}]}。' base_sys_prompt += '3. 处理规则：将直接引语和旁白描述合并到content字段说，话者作为内容开头，旁白描述转为第三人称叙述。' # model = RemoteModelInstance(base_url='http://192.168.137.163:1234/v1',api_key='lmstudio',api_type='openai',model_name='qwen3:32b') model = RemoteModelInstance(base_url='http://192.168.0.132:11434/api/chat',api_key='ollama',api_type='ollama',model_name='qwen3:32b') user_name = '奥黛丽' assistant_name = '其余' sys_prompt = base_sys_prompt + f'对话中{user_name}的role为user，{assistant_name}的role为assistant' model.sys_prompt = sys_prompt print(model.single_request('“太感谢您了！‘愚者’先生您真是太慷慨了！”奥黛丽欣喜地回应道。她为自己刚才想用金钱购买消息的庸俗忏悔了三秒。克莱恩停止手指的敲动，语气平淡地描述道：“第一个常识，非凡特性不灭定律，非凡特性不会毁灭，不会减少，只是从一个事物转移到另一个事物。”我不知不觉竟然用上了队长的口吻……克莱恩的嘴角下意识就翘了起来。'))

运行结果：

{"conversations": [{"role": "user", "content": "奥黛丽：太感谢您了！‘愚者’先生您真是太慷慨了！她为自己刚才想用金钱购买消息的庸俗忏悔了三秒"}, {"role": "assistant", "content": "克莱恩：第一个常识，非凡特性不灭定律，非凡特性不会毁灭，不会减少，只是从一个事物转移到另一个事物。克莱恩不知不觉竟然用上了队长的口吻，嘴角下意识翘了起来"}]}

完整提示词：

你是一个数据标注工程师，你需要将我给的对话片段转换为标准JSON对话格式。要求：1. 只需输出结果，不要任何分析解释。2. 格式必须严格遵循这个示例：{"conversations": [{"role": "user/assistant","content": "合并后的对话内容和上下文描述"}]}。3. 处理规则：将直接引语和旁白描述合并到content字段说，话者作为内容开头，旁白描述转为第三人称叙述。

可以直接将上面的提示词给官方的Ai，直接使用更方便，效果也会更好。

0XU.CN