Grok-1 - 开源的314B规模模型

马斯克在最后一刻如约开源了Grok，模型有314B大小，这是第一个如此规模的开源模型。国内的公司又能起飞一波了，不过模型没有经过微调，对各家的训练技术也有一定的考验。

模型快速介绍：

基础信息：模型规模为314B，由8个专家系统组成（其中2个处于活跃状态）。活跃参数总数达到86B。该模型采用旋转嵌入（Rotary Embeddings）技术。这个版本的Grok-1是我们在2023年10月完成预训练阶段时的初始模型版本。

Apache 2.0这一开源许可证下发布这个模型的权重和架构，任何人都可以在该许可证的规则下使用这些资源。

它是一个拥有3140亿参数的混合专家模型，其中在处理每个数据单元（Token）时，大约有25%的模型参数是活跃的，这意味着模型可以更高效地运行。

发布公告：https://x.ai/blog/grok-os 这个模型是xAI团队使用定制的训练架构，在JAX和Rust的基础上从头开始搭建并训练出的成果。

模型架构介绍：

分词器的词汇量为131,072（与GPT-4相似），即2的17次方。
嵌入向量的大小为6,144（48*128）。
模型包含64层的Transformer结构。每层包含一个解码层，由多头注意力模块（Multihead Attention Block）和密集前馈块（Denseblock）构成。键值对（Key-Value）的大小为128。
在多头注意力模块中：用于查询的头数为48，而用于键/值（Key/Value, KV）的头数为8，其中KV的大小为128。
密集前馈块（Dense Block）的特点包括：扩展因子为8，隐藏层的大小为32,768。
每个Token会从8个专家中选出2个进行处理。
旋转位置嵌入（Rotary Positional Embeddings）的大小为6,144，这与模型的输入嵌入尺寸相匹配。
模型可以处理的上下文长度为8,192个Token。计算精度为bf16。为了运行整个模型，你可能需要5台H100 GPU。

@Grok @AI @ROPE

Grok-1 - 马斯克开源的314B规模模型