选择你喜欢的标签
我们会为你匹配适合你的网址导航

跳过将删除所有初始化信息

您的位置：0XUCN > 资讯 > 智能

新闻分类

科技
- 通信
- 数码
- 科学
互联网
- 融资
- 新零售
- 企服
- 共享
- 教育
- 医疗
- 物联网
- 安全
- 智能
- 政策
- 动态
- 技术
- 软件
娱乐
- 电影
- 电视剧
- 综艺
- 动漫
- 音乐
- 明星
- 网娱
- 韩娱
- 热点
- 值得买
游戏
- 手游
- 端游
- 页游
- 主机
- 公告
- 攻略
体育
- 业界
- 足球
- 篮球
- 彩票
汽车
- 车讯
- 新车
- 评测
时尚
- 奢侈品
- 时装
- 美妆
- 美体
健康
- 疾病
- 两性
- 健美
- 医美
- 养生
- 新冠
旅游
母婴
- 孕产
- 哺育
- 早教
- 亲子
- 萌娃
房产
- 资讯
- 家居
- 家电
教育
- 高考
- 考研
- 公考
- 留学
- 高校
- 小初高
宠物
- 资讯
- 百科
- 训练
- 常识
- 宠物用品
其它
造数

CMMLU 一个综合性的大模型中文评估基准

智能 PRO 作者：崽下毛毛雨 2025-08-19 00:39

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜，支持多种评估方式，如five-shot和zero-shot测试，是衡量中文语言模型性能的重要工具。

CMMLU的主要功能

排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，帮助比较模型性能。
数据集：提供开发和测试数据，支持快速使用和评估。
预处理代码：提供提示生成方法，方便模型训练和测试。
评估工具：支持多种评估方式，便于研究者和开发者测试模型能力。

如何使用CMMLU

获取数据集：

从GitHub下载：访问 CMMLU GitHub页面：https://github.com/haonan-li/CMMLU/，在data目录中找到开发和测试数据集。
通过Hugging Face获取：访问Hugging Face平台：https://huggingface.co/datasets/haonan-li/cmmlu，直接加载CMMLU数据集。

准备测试环境：

安装依赖：确保安装了必要的Python库，如transformers、datasets等。
克隆代码库：克隆CMMLU的GitHub仓库，获取测试代码和预处理工具。

<span class="token function">git</span> clone https://github.com/haonan-li/CMMLU.git

<span class="token builtin class-name">cd</span> CMMLU

预处理数据：在src/mp_utils目录中，使用提供的脚本对数据进行预处理，生成适合模型输入的格式。

python src/mp_utils/preprocess.py

运行评估代码

选择模型：根据需要评估的语言模型，加载模型和tokenizer。
运行测试脚本：在script目录中，运行测试脚本，评估模型在不同任务上的表现。

python script/evaluate.py <span class="token parameter variable">--model</span> <span class="token operator"><</span>model_name<span class="token operator">></span> <span class="token parameter variable">--data_path</span> <span class="token operator"><</span>data_path<span class="token operator">></span>

提交测试结果：

开源模型：直接提交拉取请求（PR），更新测试代码和结果。
未开放模型：将测试代码和结果发送到指定邮箱（如haonan.li@librai.tech），等待验证后更新到排行榜。

分析结果：在GitHub页面的排行榜部分，查看模型在不同任务上的表现，分析模型的优缺点。

CMMLU的应用场景

语言模型性能评估：用在测试和比较语言模型在中文多任务场景下的知识和推理能力，帮助优化模型架构。
教育领域的智能辅导：开发智能辅导系统，为学生提供多学科的练习和学习建议，提升学习效果。
智能客服优化：评估模型在特定领域的知识理解能力，优化智能客服系统，提高客户服务质量。
文化知识传播：用CMMLU的数据集开发文化问答系统，传播中国文化知识，促进文化传承。
医疗健康知识评估：评估语言模型在医学领域的知识理解能力，辅助开发医疗咨询工具，提供健康建议。

0XU.CN

[超站]友情链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/

*文章为作者独立观点，不代表 0XUCN 立场

本文由崽下毛毛雨发表，转载此文章须经作者同意，并请附上出处(0XUCN)及本页链接。

原文链接 https://www.0xu.cn/article/intelnet/intelligent/62768.html

CMMLU zero-shot five-shot

图库

崽下毛毛雨

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

fastposter

processon

itrust

SSL

K2CMS

百度热搜榜

排名热点搜索指数

分享文章

微信
微信扫码分享

新浪微博
离开
复制链接
返回顶部