马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

共 6810字,需浏览 14分钟

 ·

2024-04-11 19:31







马斯克说到做到:


旗下大模型Grok现已开源!



代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——


就是说,这是当前开源模型中参数量最大的一个。


消息一出,Grok-1的GitHub仓库已揽获4.5k标星,并且还在库库猛涨。



表情包们,第一时间被吃瓜群众们热传了起来。



而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴……



那么,话不多说,来看看马斯克这波为怼OpenAI,究竟拿出了什么真东西。















Grok-1说开源就开源





















此次开源,xAI发布了Grok-1的基本模型权重和网络架构。


具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。


结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。


单看这激活的参数量,就已经超过了密集模型Llama 2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。



不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。

















这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。



















模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。



而且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100。



除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——


没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。


而在官方通告之外,还有许多大佬通过扒代码等方式揭露了Grok的更多技术细节。


比如来自斯坦福大学的Andrew Kean Gao,就针对Grok的技术细节进行了详细解释。


首先,Grok采用了使用旋转的embedding方式,而不是固定位置embedding,旋转位置的embedding大小为 6144,与输入embedding相同。



当然,还有更多的参数信息:





  • 窗口长度为8192tokens,精度为bf16


  • Tokenizer vocab大小为131072(2^17),与GPT-4接近;


  • embedding大小为6144(48×128);


  • Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;


  • key value大小为128;


  • 多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;


  • 密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。









除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同——


Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。



而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。


另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,商用友好。















为怼OpenAI怒而Open





















大家伙知道,马斯克因为OpenAI不Open,已经向旧金山高等法院提起诉讼,正式把OpenAI给告了。


不过当时马斯克自己搞的Grok也并没有开源,还只面向𝕏的付费用户开放,难免被质疑双标。


大概是为了堵上这个bug,马斯克在上周宣布:

















本周,xAI将开源Grok。




















虽然时间点上似乎又是马斯克一贯的迟到风格,但xAI的这波Open如今看来确实不是口嗨,还是给了网友们一些小小的震撼。



有xAI新晋员工感慨说:

















这将是激动人心的一年,快系好安全带吧。




















有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。


不过,也并不是每个人都买马斯克的账:



不过说归说,多线并进的马斯克,最近大事不止开源Grok这一件。


作为多公司、多业务的时间管理大师,马斯克旗下,特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统FSD V12,所有北美车主用户,都OTA更新升级,可以实现所有道路场景的任意点到点AI驾驶。


SpaceX则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。


推特则开源了推荐算法,然后迎来了一波自然流量新高峰。


别人都是 you can you up, no can no bb…马斯克不一样,bb up不选择,边喊边干,还都干成了。





参考链接:


[1]https://github.com/xai-org/grok-1


[2]https://x.ai/blog/grok-os








>End


>>>                        


本文转载自“量子位”,原标题《马斯克突然开源Grok:3140亿参数巨无霸,免费可商用》。


为分享前沿资讯及有价值的观点,太空与网络微信公众号转载此文,并经过编辑。







未按照规范转载及引用者,我们保留追究相应责任的权利






部分图片难以找到原始出处,故文中未加以标注,如若侵犯了您的权益,请第一时间联系我们。












HISTORY/往期推荐

























坚持道路自信 直面未来挑战——“对标SpaceX”的思考
















混合所有制模式:新型举国体制在商业航天发展中的逻辑演进和实践路径(之一)
















混合所有制模式:商业航天领域推进新型举国体制的重要途径
















迪斯尼传播快乐,美丽星球点亮梦想














>>>                  



充满激情的新时代,


充满挑战的新疆域,


与踔厉奋发的引领者,


卓尔不群的企业家,


一起开拓,


一起体验,


一起感悟,


共同打造更真品质,


共同实现更高价值,


共同见证商业航天更大的跨越!


——《太空与网络》,观察,记录,传播,引领。















>>>                                           




·《卫星与网络》编辑委员会





高级顾问:王国玉、刘程、童旭东、相振华、王志义、杨烈




· 《卫星与网络》创始人:刘雨菲


· 《卫星与网络》副社长:王俊峰








·  微信公众号(ID:satnetdy)团队





编辑:艳玲、哈玫,周泳、邱莉、黄榕


主笔记者:李刚、魏兴、张雪松、霍剑、乐瑜刀子、赵栋


策划部:杨艳、若㼆、李真子


视觉总监:董泞


专业摄影:冯小京、宋伟


设计部:顾锰、潘希峎、杨小明


行政部:姜河、林紫


业务部:王锦熙、瑾怡


原创文章转载授权、转载文章侵权、投稿等事宜,请加微信:18600881613


商务合作;展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广;企业口碑传播及整体营销传播等,请加微信:13811260603


杂志订阅,请加微信:wangxiaoyu9960



· 卫星与网络各分部:



成都分部负责人:沈淮


长沙分部负责人:宾鸿浦


西安分部负责人:郭朝晖


青岛分部负责人:江伟


· 卫星与网络总部负责人:农燕








· 会议活动部负责人乔颢益、许克新、董今福


· 投融资及战略层面合作:刘雨菲


· 本平台签约设计公司:一画开天(北京)文化创意设计有限公司


· 航天加(深圳)股权投资基金管理负责人:杨艳






































浏览 25
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报