上海人工智能实验室发布了 MMStar 评价体系

AI观察员 2024-04-02 10:05:54 浏览数 (731)
反馈

上海人工智能实验室发布了 MMStar 评价体系

Image

上海人工智能实验室发布了一套多模态 LLM 视觉评价体系 MMStar。#ai##llm#

他们还利用这套评价体系对现在的多模态 LLM 进行了评价产出了对应的排行,GPT-4V 还是毫无疑问的第一。

但即使是 GPT-4 在这个体系中也没有及格,多模态还有很长的路要走。

详细介绍:

MMStar 包含 1500 个经过人工精心挑选的高质量多模态评估样本,旨在全面评估视觉语言模型在 6 个核心能力和 18 个具体维度上的多模态能力。

在 MMStar 上,GPT-4V 的高分辨率版本表现最佳,准确率达到 57.1%。但在细粒度感知、逻辑推理、科学技术和数学等能力上,所有模型的表现都未达到令人满意的水平。

值得一提的是,小模型 TinyLLaVA-3B 的表现出乎意料地好,超过了一些 7B 和 13B 的模型,凸显了小规模视觉语言模型的潜力。

还提出了两个新的评估指标:多模态收益(MG)和多模态泄漏(ML)。MG 衡量视觉语言模型从多模态训练中获得的实际性能提升,而 ML 衡量评估样本在多模态训练过程中的泄漏程度。

项目地址:https://mmstar-benchmark.github.io/

@MMStar @多模态 @评价

0 人点赞