苹果发布MM1:30B规模多模态LLM

AI观察员 2024-03-29 10:42:47 浏览数 (405)
反馈

苹果发布MM1:30B规模多模态LLM

Image

苹果加入战场,发布了自己的大语言模型 MM1,这是一个最高有 30B 规模的多模态 LLM。论文关键信息如下:

  • 图像分辨率、图像编码器的预训练数据和模型大小对性能有显著影响。
  • 视觉-语言连接器的设计相比之下影响较小。
  • 预训练数据的混合比例对于少样本和零样本(zero-shot)性能至关重要。
  • 通过预训练和SFT,MM1模型在多个基准测试中取得了SOTA性能。
  • MM1模型展现了一些吸引人的特性,如上下文内预测、多图像推理和少样本学习能力。

模型实现方案包括:

  • 架构组件和数据选择的消融实验。
  • 图像编码器:研究了不同预训练图像编码器的影响,以及图像分辨率和图像标记数量的重要性。
  • 视觉-语言连接器:探讨了不同类型的视觉-语言连接器(如平均池化、注意力池化和C-Abstractor)对模型性能的影响。
  • 预训练数据:使用了图像标题、交错的图像-文本和纯文本数据,研究了这些数据类型及其混合比例对模型性能的影响。

模型构建和预训练过程涉及:

  • 扩大模型规模,包括密集模型和混合专家(mixture-of-experts,简称MoE)变体,构建了一系列性能优越的多模态模型。
  • 在预训练过程中,使用大规模的多模态数据集,并通过特定的数据混合比例来训练模型。

性能评估和结果包括:

  • 评估了预训练模型在多个基准测试中的性能,包括图像标题和视觉问答(VQA)任务。
  • 通过监督式微调(Supervised Fine-Tuning,简称SFT),在一系列多模态基准测试中取得了有竞争力的性能。

论文地址:点击查看论文

@苹果 @MM1 @多模态LLM

0 人点赞