Databricks 新开源模型 DBRX

AI观察员 2024-03-29 15:14:05 浏览数 (348)
反馈

Databricks 新开源模型 DBRX

Image

Databricks 最近发布了新的强大开源模型 DBRX。该模型架构如下:

  • 拥有 132B 参数的 MoE 模型,共有 16 个专家。
  • 每个 Token 激活 4 个专家,总共有 36B 的活跃参数。
  • 相比于 Mixtral 的 13B 活跃参数,DBRX 少了近3倍。

性能表现:

  • 在语言理解、编程、数学和逻辑方面,DBRX 轻松击败了开源模型,如 LLaMA2-70B、Mixtral 和 Grok-1。
  • 在大多数基准测试中,DBRX 超过了 GPT-3.5。

DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型(MoE),使得该模型在每秒处理的标记数量方面非常快速。

数据训练:

  • 以 12 万亿 Token 的文本和代码进行预训练。
  • 支持的最大上下文长度为 32k Tokens。

更多信息: 点击查看

@Databricks @DBRX @MoE

0 人点赞