"Grok"搜索结果 1 条
马斯克称 Grok 3 即将推出,已完成预训练,计算量比 Grok 2 高十倍,对此你有哪些期待?
我很期待,因为马斯克卡在了一个【奇特的点】上(不是奇点哈),会成为Scaling Laws这个话题讨论的重要例子 我来说说两个背景: ①DeepSeek V3的基础模型已经“位列仙班”(SOTA) 用2000张卡训练了两个月(以H800为主,性能毛估估只有H100的一半,仅相当于1000张H100,炸裂啊。),成本是557.6万美金,671B MoE系统,激活参数37B,使用数据量14.8T tokens (据称是)高质量数据。训练算力消耗极低。 马斯克的十倍算力实际上是DeepSeek V…