大模型专家解读Deepseek
Q:Deepseek通过PDS进行优化,用汇编语言做技术方案的技术门槛有多高,能否量化?这种能力能否迁移到昇腾、AMD等其他生态上,还是只能基于英伟达生态开发?
A:不一定只能基于英伟达生态,在昇腾、国产算力、AMD以及偏HPC架构形式上,甚至TPU上都有不错效果,这种思路在算力层面不会依赖一种生态。如果量化难度,只能说它提供了一种与以往不同的思路,以往是局部做底层的事情,而它是在大部分关键步骤去做。但具体量化数字说不清楚。只要按照这种思路去做能做出来,但时间上未必能那么快,因为业界没有较好的开源方案。Deepseek做了半年以上。
Q:字节、百度等其他国产大厂是否有资源能力复刻Deepseek的训练方法?
A:可以按照这种方法去走。
Q:Deepseek的RL模型舍弃监督微调,完全依赖强化学习,是必然还是偶然,是有意为之吗?
A:这并非特意为之。传统强化学习效率低,其架构虽明确(在各领域应用基本是“2加3”形式架构,即两个模型互相平衡且基于反馈,这种架构在各领域论文图中常见),但效率低且对数据要求高。以一种偏研究、想做小规模实验的思路,才做出了改变。传统强化学习思路固化,之前效果不错,所以没人想过改变,这是遇到问题解决问题的创新思路。
Q:强化学习引入到语言模型后,是否是一条确定的方向?
A:在无标注领域,强化学习这种思路会成为以后很多企业学习的方向。在推荐等很多场景中存在数据无标注的情况,如电商推荐、内容推荐等领域有冷启动问题,不存在好的标注用于预训练。基于现在的业务现状,强化学习路径在创新领域会成为未来技术格局的一部分,大家会沿着这项技术做更深入研究。
Q:DeepSeek公司成功的关键因素是什么,其成功的偶然性和必然性如何体现,为何是它而非字节或国内其他大模型厂商推出这套模型?
A:一是用人方面,DeepSeek敢于启用年轻人才,不在乎其行业权威title或身份,很多刚博士毕业没几年的人能领导团队,用年轻人打破常规思路的想法去做创新。二是对大模型技术理解到位,进行全面系统的优化。在大模型常规三要素(算法、算力、数据)之外,从更多细节全方位优化,如在算力方面,从软件算法层面进行实时感知和调度,不仅用于推理层面还横向应用到训练层面,甚至对底层的ASIC块进行调度。
Q:DeepSeek作为一个几百人的小规模公司,为什么能完成大模型研发这样复杂的系统工程?
A:DeepSeek的团队风格类似于早期的OpenAI,重在做出原始的底层创新。其关键算法、组件背后看不到太多行业著名大咖参与。这种团队风格容易做出底层创新,在现阶段对于DeepSeek来说,人数不是限制其创新的因素,100号核心算法层面的人也能够支撑做出巨大创新 。同时,作为追赶者,其前进方向相对确定,不像过去的行业引领者如OpenAI、Google需要庞大团队探索不同方向。
Q:DeepSeek在未来1 - 2年人数能否支撑其发展?它能否继续保持领先,还是会被竞争对手短期内快速赶上?
A:从中短期看,DeepSeek的思路能继续领先。它没有全方位开源,其真正使用的数据外界无法获取,仅从论文看它用的数据不多,存在一些核心要点,所以领先程度能保持一段时间。关于人数,从核心算法层面讲,两三百人可能不够支撑其技术理想,核心算法层面技术人员到500以上,才可能支撑其计划。
Q:未来1 - 2年内,大模型方向是继续沿着Transformer做工程优化,还是Transformer和强化学习潜力未充分发挥,亦或是会出现更底层的模型架构创新?
A:肯定会有比Transformer更好的底层形态出现。基于next token形式做大模型会受平方级增长瓶颈限制,目前的优化只是将平方级优化成T乘以N ,无法完成线性优化。之前有对模型架构的改进尝试,如将RNN的弊端用LSTM改进,现在也有公司重新回到RNN。Transformer迟早会被完全改造,国外Google和Facebook在底层架构层面贡献较大,可能做出改变;国内DeepSeek目前不太可能改变Transformer架构,它此前专注通信、网络存储,做大模型后主要针对工程技术协同问题做优化。
Q:DeepSeek的V3模型训练成本与GPT-4相比差距巨大,原因是什么?是统计口径问题还是后发优势?
A:成本确实有所降低,但没有达到十分之一这么大的差距。数据成本降低很多,但按其思路实践出效果有难度。成本计算方式存在差异,DeepSeek可能仅计算了预训练及相关学习部分,没有将后阶段如post-training、用更好参数模型进行深度学习等成本计算进去。OpenAI一亿美金和DeepSeek五百多万美金的数字都有些夸张,实际DeepSeek成本降低不少,但如果算上其他部分,在现有基础上乘以二可能比较合理。
Q:DeepSeek在训练和推理层面成本大概实现了多大程度的下降?
A:在训练层面,把数据购买成本、用其他模型优化、模型产生训练数据再学习等都算上,整体成本比公布的大2到3倍。因为后续在强化学习领域扩大规模、针对MOE更细分拓展,训练更细致的路由网络等成本都应算入。在推理层面,相比训练层面降幅更大。
Q:DeepSeek在训练和推理两个层面,哪个降本更多?
A:在推理层面降本更多。推理层面一般看TPS(每秒支撑多少token)和并发指标。针对并发,DeepSeek在V3及RE底层做了很多优化,以往A100每秒能做到200的TPS就算不错,按照Deepseek的思路现在大概每秒能做到2000以上。在推理技术领域领先业界,V1版本在2023年就已领先,V2版本就能实现靠推理技术盈利,相比实际成本优势明显,领先业内企业一年以上。
Q:Deepseek用P8进行训练和推理,是否意味着对高端芯片的依赖度会明显下降?
A:并非如此。大模型训练主要是混合训练方式,用到FP8、FP16,甚至一部分FP6和FP4 。芯片若不支持这些精度,便无法进行训练。像H100、英伟达最新发布的Blackwell架构、之前的Hopper架构和Ada架构支持FP8。而且,不仅硬件要支持,主流的推理框架(如TensorRT)、训练框架(如Megatron-LM )也需对FP支持,部分框架对硬件有一定要求。越先进的芯片,对于后续更低精度训练、降低通信量及提升计算效率等越有优势,所以未来对高端芯片的需求不会明显下降。
Q:未来1到2年内训练和推理算力是否会有明显的此消彼长态势?
A:会有这种态势。虽然一些企业宣称能以低算力达到类似OpenAI的效果,但实际深入研究就会发现,像强化学习、硬件层面的协同创新、底层语言调度、通信优化等技术很难短时间学会。Deepseek是全方位协同优化的训练思路,企业若仅学部分思路只能降低一点训练成本,若全面学习,以大厂技术能力至少得耗费一亿以上算力成本,且学习难度大。同时,Deepseek的成功会吸引更多企业尝试大模型自研,调动训练需求,所以训练端算力需求依然不低。而推理端正如提问者所说,逻辑比较容易理解,模型性能提升和成本下降后,应用端需求会打开。
Q:Deepseek在多模态领域未来会保持什么样的布局,是把主要精力放在语言模型方面,还是会更多地在多模态上投入资源?
A:Deepseek在后续一定会在多模态领域进行更大的投入。从大模型发展思路来看,语言模型最初在业务中的占比可能较高,甚至超过80%,但最终其模态形式占比一定会降低到20%以下。大模型本质提供理解和生成两种能力,与娱乐、自动驾驶等结合后,做多模态对整个市场影响更大,很多做得好的最终都会在多模态层面布局。而且Deepseek现在的一些招聘情况显示,其已具备多模态领域的一些小团队,还在大力招聘相关人员,后续一定会大力推进多模态相关模型。
(转自:纪要研报地)
相关推荐
大模型专家解读Deepseek
DeepSeek大模型专家交流
DeepSeek惊艳全球,美国大模型两巨头:并不比我们先进
多个中国平台,集中上线DeepSeek大模型
阿里、百度、腾讯官宣!上线DeepSeek大模型
DeepSeek新模型大揭秘,为何它能震动全球AI圈
DeepSeek启示录:伟大不能被计划
DeepSeek扭转AI战局?谁说我们不能在“1到100”阶段异军突起
成就DeepSeek奇迹的芯片,敲响英伟达警钟
AI共富:DeepSeek震惊美国AI业界,中国国产AI大崛起!
网址: 大模型专家解读Deepseek http://www.xishuta.com/newsview132452.html
推荐科技快讯
![](http://www.xishuta.com/upload/imgs/img_20190122031342.jpg)
- 1问界商标转让释放信号:赛力斯 95116
- 2人类唯一的出路:变成人工智能 20476
- 3报告:抖音海外版下载量突破1 20303
- 4移动办公如何高效?谷歌研究了 19663
- 5人类唯一的出路: 变成人工智 19588
- 62023年起,银行存取款迎来 10265
- 7网传比亚迪一员工泄露华为机密 8393
- 8五一来了,大数据杀熟又想来, 7986
- 9滴滴出行被投诉价格操纵,网约 7612
- 10顶风作案?金山WPS被指套娃 7179