股票质押类信托 性能匹敌GPT-4o的国产模型在海外火了,训练仅花费558万美元
2025-01-1312月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,2048个GPU、2个月、近600万美元股票质押类信托,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。 Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是一个更强大的模型,仅使用了280万GPU 小时(计算量约为十分之一)。前Open AI 联合创始人、Tesla A