马斯克称 Grok 3 即将推出,已完成预训练,计算量比 Grok 2 高十倍,对此你有哪些期待?

发布时间:
2025-01-05 18:22
阅读量:
3

我很期待,因为马斯克卡在了一个【奇特的点】上(不是奇点哈),会成为Scaling Laws这个话题讨论的重要例子

我来说说两个背景:

①DeepSeek V3的基础模型已经“位列仙班”(SOTA) 用2000张卡训练了两个月(以H800为主,性能毛估估只有H100的一半,仅相当于1000张H100,炸裂啊。),成本是557.6万美金,671B MoE系统,激活参数37B,使用数据量14.8T tokens (据称是)高质量数据。训练算力消耗极低。 马斯克的十倍算力实际上是DeepSeek V3的100倍,这造成两种极端情况。

②ilya sutskever在2024 NeurIPS上提到了数据的限制,限制了预训练,但没有提到算力的限制。


这背后就是一个问题:马斯克的十倍算力能用来干嘛?(假设他们真的把10万张H100串起来了,没有崩坏。当然实际的损耗肯定是很大的。)

马斯克要如何用掉这些算力,这是不是在用火箭发射擀面杖?马斯克有没有足够的人类高质量数据?

是填充一个20000B的母模型(用来知识蒸馏),还是重复学习? 这似乎都没啥大意义。

十倍算力,能带来更好的泛化能力吗?我觉得不太行,一个超大模型,它也许能利用边缘的长尾概率,但这不是它的泛化能力,而是边缘知识的调用能力。(据称OpenAI在招募专业团队直接编写代码和数学的数据……这其实在告诉我们:好吧,我们坦诚说吧,模型泛化能力真扯淡。)

——

我在想,也许应该先训练一个 “会推理会反思的Agent”,然后拿这个Agent再去做预训练,去榨干原始数据,也许才能达到更好的泛化能力,就像人类自身的学习方式,边反思边学习,而不是填鸭,填鸭的泛化能力非常差。 每一个Agent都有不同思维模式,学习到不同的知识角度(当然,知识和信息是有观察角度的),然后把这些Agent组合成MoE系统,比如数学,代码,科学,文学,哲学。当然这对算力的要求是很恐怖的,十倍也打不住,融入强化学习,对模型的可解释性工作也是一次暴击。 (但这违背Dario Amodei第二定律——告诉模型方向,但不要告诉模型怎么学。 那么一个会反思的模型,是一种方向,还是一种方法?补充:Dario Amodei第一定律就是Scaling Laws,在这个扩展性定律里,参数和算力的重要性低于数据量的重要性。 当然Dario的定律可能都是扯蛋,在现在这个节点看向未来,可能每个人都在扯蛋。扯蛋使人快乐。)

——

如果Grok 3最后跑不过DeepSeek V3或者仅仅略超,那就尴尬了,100倍的算力提升啊。

END