首页 科技快讯 DeepSeek大模型专家交流

DeepSeek大模型专家交流

来源:晰数塔互联网快讯 时间:2025年02月06日 05:55

1、DeepSeek模型的影响及特点

成本下降与商业影响:DeepSeek的AI模型通过技术创新,大幅降低大模型单位算力成本,其商业领域影响力可能具有颠覆性,相当于以小米的价格做出华为的手机。

重点关注的路径:DeepSeek问世后,应重点关注成本下降直接受益的应用链,以及商业逻辑变化后市场短期出现分歧的算力领域,从交易角度看,分歧越大,赔率越高。

开源问题:内部曾讨论过DeepSeek是否开源,24年底决定不开源,但现在开源声音较大,内部讨论后认为应做一版开源模型,但时间线不确定。

成本降低方面:DeepSeek在训练中使用int8精度,而多数厂商仍以FP16为主,此外还基于扩大生态做了算子和框架适配等工作,这是其做得相对不错的地方。

模型能力及与国内模型的对比:DeepSeek在深度学习上做出的模型效果不错,但不能说其比国内模型强特别多,国内如MOSS、智谱、T5等第一梯队模型与DeepSeek的差距没有想象中那么大,且热度高的原因之一是其开源。

对算力需求的影响:AGI的前路尚远,模型迭代存在诸多不确定因素,需要消耗大量算力进行验证,因此算力的储备在训练阶段仍是必要的,模型训练所需算力不会因DeepSeek而大幅下降,25年模型训练所需算力的需求不会突然砍半,26年算力需求可能会飙升。

对模型推理的影响:模型推理所需算力的成本受模型尺寸、精度、类型、并发等因素影响,DeepSeek对文本模型推理的优化更多,图像语音视频生成等方面的成本优化尚不明确,工程结构的优化可在一定程度上降低文本模型推理成本,但规模效应仍是降低成本的关键。

对用户规模和模型效果关系的看法:用户规模的提升不一定对模型效果产生正向积极的帮助,DeepSeek对于用户增长和规模没有太强诉求,OpenAI用户量较大但模型发展并非一帆风顺,说明模型飞轮、规模效应验证等观点不完全准确,模型迭代和能力提升的关键因素可能是算力、数据和团队。

对行业格局的影响:DeepSeek的开源使其成为模型竞争中的鲶鱼,推动更多二线公司下场,引入更多玩家,使模型训练和深度优化不再只是头部大厂的游戏,同时可能会进一步推动国产卡用于训练,云厂商也可通过规模效应提供服务并降低成本。

对下游应用市场的影响:国内应用落地需注意模型牌照备案,苹果在端侧的模型有一定优势,但在国内面临合规问题,开源模型对不擅长做基础大模型但落地场景清晰的公司是利好,尤其在文本方面,但在其他方面仍需付费或合作。

对中美AI竞争的影响:国内算力未被真正锁死,数据、芯片、人才等方面的封锁也并非完全有效,经过几年追赶,国内AI模型研发迭代已与美国处于同一水位,美国进一步制约国内AI发展的难度较大。DeepSeek的优势在于开源,其开源可能期待被其他公司打破,以推动开源生态繁荣和中国模型优势扩展,真正的竞争力还在于人的主观能动性带来的模型结构调整、训练优化等,算力只是必须但非瓶颈,表现形式会更加多元。

对国产芯片的影响:工信部要求模型厂商与国产芯片做适配,DeepSeek开源模型可能会推动国产芯片的出货情况,对整个国产芯片有正向帮助,但很难说对某一家国产芯片带来非常正向的拉动和提升,这是一个整体的趋势,而非某一家公司的单独收益。

Q&A

Q:从采购方的角度来看,算力采购的节奏会怎样变化?2025年算力需求会是前低后高,还是需求下降的担忧是多余的?

A:不必要过于担心2025年训练需求会突然砍半。目前没有公司因DeepSeek而砍单。2025年预算已做出,算力需求仍然存在,因为行业仍在探索真正的路线,过程中的适应和试错还需进行。北美大厂订单可能随自身需求缩减,但缩减订单可能被印度、欧洲或国内二线互联网厂商通过水货方式获得。2025年算力需求可能缓步提升,至少目前自身订单没看到明确砍单动作。2026年算力需求可能飙升,因为开源和闭源竞争可能带来更多新东西,且多模态发展会使场景端扩容和推理需求增加,模型垄断被打破,很多公司会受益于开源优势。

Q:在硬条件相同的前提下,DeepSeek通过创新点训练时间能缩短多少?推理测的算力能节约多少?

A:无法给出清晰回复。在应用或最终效果相对差不多情况下,对等算力DeepSeek训练模型最少需要15000到18000张H800。DeepSeek工程层面的巧思和低精度训练有较大影响,目前很多公司在预训阶段投重兵,后阶段投入相对较少,而DeepSeek可能在后学习阶段投入更多。单一一次模型训练成本不能说明太多问题,之前的科研投入后续可能也不会停。推理方面,通过工程能力最多能降10% - 20%左右的成本。模型推理成本要看规模效应,不同场景下成本优势不同,对于单机成本没有特别细的测算。

Q:下游应用市场目前是否会大量使用开源模型?这对苹果这样的公司是否是利好?

A:国内和海外情况要分开讨论。国内开展模型推理,若对外公开提供服务需备案,且审核需要时间,不一定能正常开展业务。苹果的MME模型在端侧做得不错,但在国内缺合规性。在云端交互方面对苹果算利好,不单纯局限于苹果设备和苹果公司,对不擅长做基础大模型但落地场景清晰的公司都是利好。不过目前开源模型在多模态融合等方面可能还不够完善,若没有相关开源内容,企业可能仍需付费与闭源模型合作。在文本方面利好相对清晰。

Q:DeepSeek是否打破了美国对中国AI封锁的某个环节?中外大模型后续进一步比拼靠什么?还是靠算力、GPU吗?

A:美国对中国AI的封锁没有完全锁死。国内算力没被锁死,数据也封锁不住,芯片方面也未能完全限制。目前中美在模型研发迭代上处于同一水位,美国进一步制约国内AI模型研发迭代进度比较难。对于DeepSeek开源优势,市场上有一些公司或团队愿意为模型迭代做贡献,推动开源生态繁荣。真正的竞争力热点在于人本身主观能动性带来的模型结构调整、模拟训练优化等,算力是必须但不构成瓶颈,可选的算力形式更加多元。

Q:DeepSeek后续是否可能选择昇腾作为算力底座,带动昇腾芯片、服务器及产业链整体AI生态上行和商业价值量价提升?

A:2024年7月之后,工信部要求中腰部以上模型厂商与国产芯片做适配,这是政治任务。对于模型推理,国产训练芯片可承接模型推理。DeepSeek因开源可部署在更多数据中心,有可能推动国产芯片出货。但所有芯片在国内的销售情况核心还是看下端应用市场能否真正使用DeepSeek。DeepSeek对国产芯片有正向帮助,会因模型用量增加、场景丰富带动国产芯片需求,但很难说其私有化或闭源一定能对国产芯片有非常正向的拉动和提升,这是一个面的带动,并非某一家公司单独收益。

(转自:纪要研报地)

相关推荐

DeepSeek大模型专家交流
多个中国平台,集中上线DeepSeek大模型
阿里、百度、腾讯官宣!上线DeepSeek大模型
DeepSeek惊艳全球,美国大模型两巨头:并不比我们先进
AI共富:DeepSeek震惊美国AI业界,中国国产AI大崛起!
DeepSeek新模型大揭秘,为何它能震动全球AI圈
DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品
银行人有了新“上班搭子”,DeepSeek会给银行带来什么?
DeepSeek启示录:伟大不能被计划
成就DeepSeek奇迹的芯片,敲响英伟达警钟

网址: DeepSeek大模型专家交流 http://www.xishuta.com/newsview132312.html

所属分类:行业热点

推荐科技快讯