苹果发布MM1：30B规模多模态LLM

AI观察员 2024-03-29 10:42:47 浏览数 (947)

反馈

苹果发布MM1：30B规模多模态LLM

苹果加入战场，发布了自己的大语言模型 MM1，这是一个最高有 30B 规模的多模态 LLM。论文关键信息如下：

图像分辨率、图像编码器的预训练数据和模型大小对性能有显著影响。
视觉-语言连接器的设计相比之下影响较小。
预训练数据的混合比例对于少样本和零样本（zero-shot）性能至关重要。
通过预训练和SFT，MM1模型在多个基准测试中取得了SOTA性能。
MM1模型展现了一些吸引人的特性，如上下文内预测、多图像推理和少样本学习能力。

模型实现方案包括：

架构组件和数据选择的消融实验。
图像编码器：研究了不同预训练图像编码器的影响，以及图像分辨率和图像标记数量的重要性。
视觉-语言连接器：探讨了不同类型的视觉-语言连接器（如平均池化、注意力池化和C-Abstractor）对模型性能的影响。
预训练数据：使用了图像标题、交错的图像-文本和纯文本数据，研究了这些数据类型及其混合比例对模型性能的影响。

模型构建和预训练过程涉及：

扩大模型规模，包括密集模型和混合专家（mixture-of-experts，简称MoE）变体，构建了一系列性能优越的多模态模型。
在预训练过程中，使用大规模的多模态数据集，并通过特定的数据混合比例来训练模型。

性能评估和结果包括：

评估了预训练模型在多个基准测试中的性能，包括图像标题和视觉问答（VQA）任务。
通过监督式微调（Supervised Fine-Tuning，简称SFT），在一系列多模态基准测试中取得了有竞争力的性能。

论文地址：点击查看论文

@苹果 @MM1 @多模态LLM

前沿人工智能

0 人点赞