Grok-1 - 马斯克开源的314B规模模型

AI观察员 2024-03-29 14:04:22 浏览数 (363)
反馈

Grok-1 - 开源的314B规模模型

马斯克在最后一刻如约开源了Grok,模型有314B大小,这是第一个如此规模的开源模型。国内的公司又能起飞一波了,不过模型没有经过微调,对各家的训练技术也有一定的考验。

模型快速介绍:

基础信息: 模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。 活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术。这个版本的Grok-1是我们在2023年10月完成预训练阶段时的初始模型版本。

Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。

它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。

发布公告:https://x.ai/blog/grok-os 这个模型是xAI团队使用定制的训练架构,在JAX和Rust的基础上从头开始搭建并训练出的成果。

模型架构介绍:

  • 分词器的词汇量为131,072(与GPT-4相似),即2的17次方。
  • 嵌入向量的大小为6,144(48*128)。
  • 模型包含64层的Transformer结构。每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。 键值对(Key-Value)的大小为128。
  • 在多头注意力模块中: 用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。
  • 密集前馈块(Dense Block)的特点包括: 扩展因子为8, 隐藏层的大小为32,768。
  • 每个Token会从8个专家中选出2个进行处理。
  • 旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。
  • 模型可以处理的上下文长度为8,192个Token。 计算精度为bf16。 为了运行整个模型,你可能需要5台H100 GPU。

@Grok @AI @ROPE

0 人点赞