deepseek DeepSeek到底是怎么回事?是否可以一击必杀刺破AI泡沫?读完这篇你就知道!

默认分类11小时前发布 admin
3,488 0
ChatGPT国内版

关于这几天很火的 ,我们做了一些研究。

几个事实

1) 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但 不是。

2)核心架构还是基于 , 在架构、工程设计上进行了创新和工艺提升,实现效率优化。架构上,采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、 算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训练尝试。工程上,在数据精度(FP8混合精度)、底层通信等方面进行了优化。这些方法在学术界都已经有了, 没有过于追求新技术,而是花了心思把这些方法都用上,解决了一些技术的应用难点,在理论应用和工程上找到平衡。

拿内燃机和汽车的发明打个比方,德国人发明了内燃机和汽车,美国人喜欢 Law,排量越大马力越大,于是从2升到4升,甚至8升排量的车在美国都很常见,所以美国肌肉车很耗油。虽然源头技术不是日本发明的,但日本人擅长把一件事做精,工程上做很多优化,日本2.5升排量的车甚至可以做到和美国5升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条(类似通过稀疏的办法减少大模型的参数量);涡轮增压利用废气能量增加空气供给,提高燃烧效率;精密制造,使得发动机零部件的配合更加紧密,从而减少能量损失;等等。

3)有些宣传说 的训练成本是550万美元,是Meta的1/10,的1/20,好像一下子比别人厉害了10倍20倍,这有点夸张。因为现在在美国预训练几千亿参数的一个模型其实也就不到2000万美元的成本,把成本差不多压缩三分之一。Meta 和 花的钱多是因为前沿探路,探路就意味着会有浪费,而后发追赶是站在别人的肩膀上,是可以避开很多浪费的。

另外算力成本在过去几年是指数型下降的,不能这么机械的比较。打个不恰当的比方,创新药的研发需要十年几十亿美元,而仿制药的研发一定会更快更省。另外成本的统计口径也没有统一的标准,可以有很大的差别。

几个观点

1)代表的是整个开源相对闭源的一次胜利,对社区的贡献会快速转化为整个开源社区的繁荣,我相信包括Meta在内的开源力量,会在此基础上进一步发展开源模型,开源就是一个众人拾柴火焰高的事情。

2)这种大力出奇迹的路径暂时看显得有点简单粗暴,但也不排除到了一定的量又出现了新的质变,那闭源和开源又将拉开差距,这也不好说。从AI过去70年发展的历史经验来看算力至关重要,未来可能依然是。

3)让开源模型和闭源模型一样好,并且效率还更高,花钱买的API的必要性降低了,私有部署和自主微调会为下游应用提供更大的发展空间,未来一两年,大概率将见证更丰富的推理芯片产品,更繁荣的LLM应用生态。

4)基础大模型终将(商品化),toB领域看谁能将LLM更好和复杂的生产环节衔接好帮客户落地提高生产效率,toC领域看谁有流量入口,最终才会获取AI产业价值创造中最多的利润。

deepseek DeepSeek到底是怎么回事?是否可以一击必杀刺破AI泡沫?读完这篇你就知道!

5)对算力的需求不会下降,有个悖论讲的是第一次工业革命期间蒸汽机效率的提高使得市场上煤炭的消耗总量反而增加了。类似从大哥大年代到诺基亚手机普及的年代,正因为便宜了所以才能普及,因为普及了所以市场总消费量增加了的。

悖论指的是随着改善“资源使用效率”,反过来会导致该“资源的使用量增加”;而不是减少(即在成本较低时会激发潜在需求)。这种现象也适用于推理算力;因为随着成本的降低,AI应用的采用可能会呈指数级增长;譬如宽带 vs 互联网的使用;

Image

到底能否带崩英伟达

答案必须是否定的!!!

1)单次训练降本不代表整体成本下降:

• 单次训练成本的下降并不意味着整体训练成本下降。训练效率提高后,实验室不一定减少投入,反而可能是通过更高效率榨干算力,获取更大收益。例如,幻方虽然在训练和基础设施优化方面有强大降本能力,且没有过多扩张API服务,专注研究与训练,但仍然面临卡片紧张的问题。与之对比,北美一些花费更多的实验室虽然在算力投入上显得有些尴尬,但他们也不会因此减少投入,而是通过吸收幻方的开源方法,并借助更多算力提升。

2)推理成本的降低将更加刺激生态的繁荣:

• 在推理成本的降低上表现尤为突出。尤其是架构相较于标准架构并没有引入特殊的算子,这使得它能在各种类型的卡片上轻松支持。通过减少推理成本,将大大推动下游应用的繁荣,拉动更大的算力需求。未来几年,大概率将见证更多的推理芯片产品和更繁荣的LLM应用生态。

3)算力投资你不仅仅是用来训练,是应用!应用!应用!

• 美国的CSP(云服务提供商)依然在疯狂投资基础设施,但这种投入不仅仅是为了训练,还包括推理需求的增长。微软和AWS的算力更多是用来支持自身的业务需求,如推荐系统和自动驾驶业务。幻方的发展带来了对北美CSP的影响,一些过去的训练投入实际上已经被证明是浪费,但未来开源的整体繁荣对这些“中间商”是利好的。

4)算力的决定性作用

deepseek DeepSeek到底是怎么回事?是否可以一击必杀刺破AI泡沫?读完这篇你就知道!

长期来看,算力才是AI行业中真正的决胜因素。历史证明,通过搜索和学习扩展算力规模,才是突破瓶颈、推动进展的关键。尽管短期内,AI研究者往往试图将人类知识灌输到算法中,但最终的突破往往来源于算力的提升,而不是知识的简单输入。

5)关于英伟达

短期上来看,英伟达在H系列转B系列的时候,本身就有一些噪音关于这个“真空期”的存在;现在叙事出来后,还需要考虑一个“预训练”转“推理”的真空期。

英伟达的最大优势一直不是来自于 naive / raw / FLOP; 譬如AMD的GPU其实在FLOP计算成本上其实比英伟达低了不少。英伟达的优势一直都是CUDA + 互联。

互联效率在预训练中更加重要,因为训练的时候需要成千上万的集群同时输出;但是在推理的过程中(包括COT推理),都只是需要更少的GPUs;

这里还有一些关于新兴挑战者的噪音;如果关于训练,关于训练 vs 推理的声音变大(假设下一个 law主要来自于推理呢),那么英伟达要怎么回应;譬如,虽然在互联的水平不如英伟达,但是他直接造了一个巨型的芯片,当所有的运算都在同一个超大芯片运行的时候,GPUs的带宽问题就会被稍微淡化;譬如Groq,完全专注于推理级的计算;譬如ASIC等等。

结论

算力不仅仅是训练的基础,还在推理和下游应用中扮演着至关重要的角色。随着技术的进步,算力使用效率的提高可能会提高模型的天花板,带来更多的商业机会和发展空间。

Image

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...