选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    MMBench 全方位的多模态大模型能力评测体系

    智能 PRO 作者:美谷朱里 2025-08-19 00:22

    MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型,如视觉问答、图像描述生成等,基于综合多维度指标,为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现,帮助研究者和开发者了解当前多模态技术的发展水平,推动相关领域的技术进步。

    MMBench主要功能

    • 细粒度能力评估:将多模态能力细分为多个维度(如感知、推理等),针对每个维度设计相关问题,全面评估模型的细粒度能力。

    • 大规模多模态数据集:提供约 3000 个多项选择题,覆盖 20 种能力维度,支持模型在多种场景下的性能测试。

    • 创新评估策略:采用“循环评估”策略,用多次循环推理测试模型的稳定性,减少噪声影响,提供更可靠的评估结果。

    • 多语言支持:提供英文和中文版本的数据集,支持对模型在不同语言环境下的能力评估。

    • 数据可视化:支持数据样本的可视化,帮助用户更好地理解数据结构和内容。

    • 官方评估工具:提供 VLMEvalKit,支持对多模态模型的标准化评估,并可用于提交测试结果获取准确率。

    • 基准测试与排行榜:排行榜展示不同模型在 MMBench 数据集上的性能表现,为研究者提供参考。

    如何使用MMBench

    • 安装依赖:确保安装必要的工具和库。MMBench 官方推荐使用其评估工具 VLMEvalKit。通过以下命令安装。


    pip <span class="token function">install</span> vlmevalkit
    generic
    58 Bytes
    © AI工具集


    • 下载数据集:从 MMBench 官方 GitHub 仓库:https://github.com/open-compass/mmbench/下载数据集。根据需求选择 VLMEvalKit 格式或 Legacy 格式的数据集。例如,下载 MMBench-Dev 数据集:


    <span class="token function">wget</span> <span class="token operator"><</span>Download Link <span class="token punctuation">(</span>VLMEvalKit<span class="token punctuation">)</span><span class="token operator">></span> <span class="token parameter variable">-O</span> MMBench_DEV_EN.zip
    <span class="token function">unzip</span> MMBench_DEV_EN.zip
    • 加载和浏览数据:用 VLMEvalKit 提供的脚本加载和查看数据样本。以下是示例代码:


    <span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>dataset <span class="token keyword">import</span> ImageMCQDataset
    <span class="token keyword">from</span> vlmeval<span class="token punctuation">.</span>smp <span class="token keyword">import</span> mmqa_display
    <span class="token comment"># 加载 MMBench 开发集</span>
    dataset <span class="token operator">=</span> ImageMCQDataset<span class="token punctuation">(</span><span class="token string">'MMBench_DEV_EN'</span><span class="token punctuation">)</span>
    <span class="token comment"># 查看第 0 个样本</span>
    dataset<span class="token punctuation">.</span>display<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>
    <span class="token comment"># 构建多模态提示</span>
    item <span class="token operator">=</span> dataset<span class="token punctuation">.</span>build_prompt<span class="token punctuation">(</span><span class="token number">0</span><span class="token punctuation">)</span>
    <span class="token keyword">print</span><span class="token punctuation">(</span>item<span class="token punctuation">)</span>
    • 模型推理:用你的多模态模型对数据集进行推理。以下是一个示例命令,使用 llava_v1.5_7b 模型进行推理:


    python run.py <span class="token parameter variable">--model</span> llava_v1.5_7b <span class="token parameter variable">--data</span> MMBench_DEV_EN <span class="token parameter variable">--mode</span> infer

      • 运行后,推理结果将保存为一个 Excel 文件,例如:llava_v1.5_7b/MMBench_DEV_EN.xlsx。

    • 评估模型性能:用 VLMEvalKit 对模型的预测结果进行评估。评估工具根据 MMBench 的标准计算准确率等指标。

    • 提交测试结果:

      • 使用测试集数据进行推理,生成预测结果文件(如 llava_v1.5_7b/MMBench_TEST_EN.xlsx)。
      • 登录 MMBench 领先榜上传预测结果文件。
      • 领先榜将自动计算并展示模型在各个能力维度上的性能表现。
      • 在 MMBench 领先榜上提交测试结果,按照以下步骤操作:

    MMBench的应用场景

    • 模型性能评估:MMBench 提供全面的多模态基准测试平台,能对视觉语言模型在不同任务和能力维度上的表现进行细粒度评估,帮助研究者和开发者清晰了解模型的强项和弱项,为模型优化提供方向。

    • 学术研究支持:研究人员用 MMBench 数据集进行新模型的开发和验证,推动多模态技术的前沿研究。

    • 工业应用开发:在工业领域,企业评估和选择适合其产品的多模态模型,确保所采用的模型在实际应用场景中具备足够的性能和稳定性,提高产品的市场竞争力。

    • 教育与培训:作为教学资源,帮助学生和研究人员更好地理解多模态模型的评估方法和应用场景,基于实践项目和课程练习提升对多模态技术的理解和应用能力。

    • 跨领域应用:MMBench 的多模态数据集涵盖多个领域,如文化、科学、医疗等,例如 CCBench(中国文化相关基准测试)能评估模型在特定文化领域的表现,推动文化研究和跨文化交流。

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接