国君计算机｜DeepSeek开源技术提高硬件利用率

2025-03-09

　　FlashMLA针对Hopper架构深度优化，在H800 SXM5实现3000 GB/s内存带宽和580 TFLOPS计算能力。DeepEP则是为混合专家模型(MoE)和专家并行(EP)设计的通信库，支持高吞吐量且低延迟的all-to-all GPU内核。软件优先的思路在高端AI芯片供应受限环境下尤为重要，通过算法和软件优化提升现有硬件效能，为国内AI基础设施建设提供了可行的替代路径，展示了资源约束下实现技术突破的可能性。

　　和DeepEP技术显著提升了现有GPU利用效率，降低了AI应用开发和部署成本。技术开源将使提供GPU云服务的厂商将直接受益，其服务器利用率和单位算力产出有望提升；专注于AI应用开发的公司也将受益于开发成本降低和应用场景拓展■◆■◆◆■；同时■■◆★■，国产大模型厂商有机会借鉴这些优化思路■■★，加速自身技术迭代，缩小与国际领先水平的差距■◆■◆。

　　3★◆★★◆■.由于软件优先的思路■★★◆★◆，DeepSeek技术为国内AI基础设施建设提供了可行的替代路径★■◆◆★。

　　本文摘自：2025年3月3日发布的《DeepSeek开源技术提高硬件利用率》

　　本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制，根据《证券期货投资者适当性管理办法》的要求，若您并非国泰君安证券研究服务签约客户，为保证服务质量◆■、控制投资风险，还请取消关注，请勿订阅◆★、接收或使用本订阅号中的任何信息。我们对由此给您造成的不便表示诚挚歉意，非常感谢您的理解与配合◆★★★■！如有任何疑问，敬请按照文末联系方式与我们联系。

　　2◆■◆.FlashMLA和DeepEP技术分别针对Hopper架构和混合专家模型(MoE)设计◆★，实现极致硬件资源利用。

　　DeepSeek将新技术完全开源，源代码在GitHub上公开◆★◆■◆，任何开发者都可自由使用和改进★■★◆★■，打破了前沿技术被大型科技公司垄断的局面，为整个行业注入新活力，也为行业建立了更健康的技术共享机制，促进知识自由流动和技术迭代，因此产业变革有望加速。

　　技术迭代不及硬件迭代速度◆■★、技术路线对其他GPU架构适配情况尚不明确■★■◆■，以及商业落地不及预期的风险。

　　5◆★★.然而，技术迭代不及硬件迭代速度■■◆◆■★、技术路线对其他GPU架构适配情况尚不明确，商业落地不及预期为风险。

　　本公众订阅号(微信号: GTJARESEARCH )为国泰君安证券股份有限公司(以下简称◆★★■“国泰君安证券”) 研究所依法设立■★◆◆、独立运营的唯一官方订阅号。其他机构或个人在微信平台上以国泰君安研究所名义注册的，或含有“国泰君安研究，或含有与国泰君安证券研究所品牌名称相关信息的其他订阅号均不是国泰君安证券研究所官方订阅号。

　　本订阅号不是国泰君安证券研究报告发布平台，本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告，如需了解详细的证券研究信息，请具体参见国泰君安证券研究所发布的完整报告。

　　4.同时★■■◆，开源策略打破了技术垄断，为整个行业注入新活力■◆■★★，促进知识自由流动和技术迭代。

　　在任何情况下，本订阅号的内容不构成对任何人的投资建议★◆★■，国泰君安证券也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任◆◆■★◆。

　　国泰君安证券研究推荐DeepSeek开源技术，提高硬件利用率和降低AI应用开发成本。

　　FlashMLA优化解码阶段内核★★，专门针对可变长度序列进行了优化，直指大模型处理长序列效率低下的核心痛点。DeepEP则提供了针对非对称域带宽转发的优化内核◆◆，并创新性地提出hook-based通信-计算重叠方法■★◆★■，不占用任何SM资源，让GPU在传输数据的同时能继续计算。这些技术使开发者能够在有限计算资源上构建更高效的AI系统，大幅降低了AI应用开发的技术和资源门槛。

上一篇：【申论范文】逐科技之光铸自立自强之基
下一篇：|凯发娱乐手机版官网“计算机的普及要从娃娃抓起”的亲历者丨李劲

热门产品

GH-P.A全自动上料激光切管机

机器人行走轨道

大包围高功率交换台

大包围高功率交换台11

GH-ES90全自动高速激光切管机11

扫一扫，加微信：

扫一扫，加公众号：