马斯克开源3140亿参数巨型语言模型Grok,对标OpenAI,免费可商用

资讯9个月前更新 dengjian
42 0

事件概述

  • 马斯克旗下公司xAI于2024年3月18日开源了其3140亿参数的巨型语言模型Grok-1。
  • Grok-1采用混合专家(MoE)架构,是目前开源模型中参数量最大的一个。
  • 该模型可免费用于商业用途,并采用了Apache 2.0许可证。

主要特点

  • 参数量巨大:3140亿参数,是目前开源模型中参数量最大的一个。
  • 采用MoE架构混合专家架构,可以提高模型的效率和性能。
  • 免费可商用:采用Apache 2.0许可证,允许用户免费使用和修改模型,包括商业用途。

技术细节

  • 模型架构:64层Transformer,每层包含一个解码器层,多头注意力块和密集块。
  • 窗口长度:8192 tokens
  • 精度:bf16
  • Tokenizer vocab大小:131072(2^17)
  • embedding大小:6144(48×128)
  • 专家系统:8个专家,使用softmax函数选择top2专家

与OpenAI的竞争

  • 马斯克此前曾起诉OpenAI,指责其不遵守开源协议。
  • 此次开源Grok-1,被认为是马斯克对OpenAI的回应。
  • Grok-1的开源,将进一步加剧大型语言模型领域的竞争。

影响

  • Grok-1的开源,将推动大型语言模型技术的普及和发展。
  • 该模型可免费用于商业用途,将降低企业开发AI应用的门槛。
  • 可能会对OpenAI等其他大型语言模型公司造成竞争压力。

未来展望

  • 预计Grok-1将被广泛应用于各种AI领域,如自然语言处理、机器翻译、图像生成等。
  • 大型语言模型技术的竞争将更加激烈,未来将出现更多参数量更大、性能更强的大模型。

参考资料

© 版权声明

相关文章

暂无评论

暂无评论...