aG百家乐真人平台

百家乐ag 部分国产芯片适配满血版 DeepSeek，仍「遥不可及」

2024-03-21 17:28:56

“国内最强AI芯片公司，适配满血版DeepSeek的方向是25Tokens/s。”

作家丨包永刚

剪辑丨王亚峰

不同于春节假期刚扬弃时近20家AI芯片公司忙着文告完成适配DeepSeek蒸馏模子的淆乱清脆，半个月后文告完成适配满血版DeepSeek模子的寥寥数家，这也着实反馈出了国产AI芯片的着实力。

“只须厂家之前仍是支撑的大模子的试验推理，那么适配DeepSeek就莫得任何难度。”AI芯片软件工程师梓豪说，“咱们公司的应用工程师（AE）就不错完成DeepSeek蒸馏模子的适配。”

这足以证明为什么有芯片公司不错用数小普通间就完成DeepSeek蒸馏模子的适配，但对于一直勉力于于作念大芯片的AI芯片公司来说，适配满血版DeepSeek更能体现其价值。

咫尺，、寒武纪、摩尔线程以及昆仑芯齐有公开信息暗示其完成满血版DeepSeek模子的适配。更多国产AI芯片公司适配满血版大模子施展迎接添加作家微信BENSONEIT了解。

“即就是咫尺仍是文告适配满血版DeepSeek的芯片公司，其性能齐不太好。”AI芯片资深工程师杰克说，“从时间上判断，此前仍是将大模子跑起来的公司，比如燧原、壁仞、天数智芯适配满血版DeepSeek也仅仅时期问题，之前莫得部署过大模子的公司适配满血版DeepSeek可能‘遥不可及’。”

那么到底适配DeepSeek蒸馏模子和满血版DeepSeek模子会成为AI芯片公司的分水岭？为什么有东谈主说国内AI芯片公司的东谈主不懂AI？DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市？

适配蒸馏版DeepSeek模子仅仅开胃小菜

半个月前芯片公司威望汹汹的适配DeepSeek的新闻里，有公司明确抒发了适配的是蒸馏模子，也有公司只说适配了DeepSeek，但适配蒸馏模子和满血版模子之间存在着渊博的差异。

满血版模子指的是与DeepSeek官网性能一致的V3和R1的全量参数模子，其参数高达671B，一般需要多台高性能GPU劳动器并行智力运动运行推理劳动。

蒸馏版DeepSeek模子是行使DeepSeek-R1生成的数据对其他模子进行微调，参数从几B到几十B齐有，比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B，这些蒸馏模子的后果差于满血版，但更易于部署。

“我一度以为适配蒸馏版DeepSeek模子莫得太大价值，许多工程师也齐更倾向于满血版DeepSeek，但我咫尺的念念法发生了转动。”有二十多年芯片行业造就的柏林说，“蒸馏版模子能称心普通用户的聊天需求，对于普及AI的道理道理相配大。”

杰克也暗示，天然蒸馏模子的准确度不如满血版模子，但蒸馏版模子能让端侧AI的智商上一个台阶，端侧资源受限，有了DeepSeek的蒸馏模子之后，比如正本只可部署7B模子的场景，咫尺能达到14B模子的后果。

国产AI芯片适配蒸馏版DeepSeek模子也难度不大。

不管是使用GPGPU架构如故专用ASIC架构对AI芯片公司，齐连忙完成了对DeepSeek的适配。“GPT火了之后系数公司齐念念观点支撑大模子，DeepSeek和之前的大模子莫得骨子的不同，有此前适配大模子的责任，适配蒸馏版DeepSeek不是艰巨。”梓豪暗示。

“CUDA兼容的GPGPU适配起来照实会更容易，但只须给ASIC更多时期作念到极致，性能不错逾越GPU。”杰克以为。

从永恒看，不管什么架构的芯片，如若仅仅支撑几个有限的模子，总能在这个架构上找到最优的惩办决策。DeepSeek的火爆，主流模子就是DeepSeek和LLMA等少数几个，从这个角度看，对AI芯片公司来说算是功德。

对于接收国产AI芯片的智算中心来说，DeepSeek的火爆相通是要紧利好。

“DeepSeek火爆之后咱们念念用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说，“但实际的问题是，如若适配DeepSeek A100的性能是100分，这家国产卡跑起来只好几分的性能，用劲优化也只好A100十几分的性能。”DeepSeek的火爆到底如何影响智算中心发展，添加作家BENSONEIT互通有无。

既然从普及AI和适配的角度，蒸馏版DeepSeek就有渊博的价值，那为什么还要适配满血版DeepSeek？

“只好部署了满血版DeepSeek模子，智力赢得蒸馏版模子，我以为这是部署满血版DeepSeek模子的病笃原因。”杰克暗示。

国内起原AI芯片最快月底能适配「好」满血版模子

然而念念要部署参数高达671B满血版DeepSeek-R1模子，即就是Int8精度模子的大小也高达671G，以单卡96G HBM推测，单机8卡统统768GB也仅仅拼集够部署满血版DeepSeek，只须模子精度比Int8更高，单台劳动器就无法部署满血版DeepSeek模子。

此时就需要多机互联，这恰是国产AI芯片公司仍未很好惩办地问题。

“Nvidia有NV Link，国产芯片莫得多机互联的惩办决策会选择InfiniBand（IB）或者高速以太网RoCE杀青互联，这些决策的通讯的延长很大，这就极猛进度会影响最终部署的后果。”杰克说，“多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点，玩ag百家乐技巧如若之前莫得惩办通讯问题，念念作念起来很难，距离见效适配满血版DeepSeek可能遥不可及。”

梓豪以为在多机互联方面，摩尔线程和沐曦有一定的上风。

另一个难点是DeepSeek的MoE混杂巨匠系统，MoE是多一个router（路由模块）的推测，它会将token路由至顺应的巨匠权重去作念推测，这个路由是动态的，这和此前的Transformer大模子的部署不一样，这亦然一个全新的挑战。

对于系数国产AI大芯片而言，还有一个硬伤就是不原生支撑FP8数据类型，DeepSeek模子接收了 FP8 混杂精度试验，人人起原的AI芯片公司英伟达从H100驱动，AMD MI325X齐原生支撑FP8。

“不原生支撑FP8不料味着就不可部署满血版DeepSeek，仅仅会带来效用问题，比如用FP16来部署，就需要2倍的存储。”杰克暗示，这就意味着需要更多卡，问题又到了多卡多机互联。

要隆重，即就是2024年推出的新一代国产AI卡，也莫得支撑FP8。

柏林以为，最新的国产AI芯片不支撑FP8、FP4这类非IEEE界说的数据类型，阐发企业里面莫得前沿的沟通带领这些公司的联想。况且英伟达2022年推出的H100就仍是支撑了FP8，仍是有东谈主作念坐蓐物，就算照着“抄”也不难了，这体现了国内许多作念AI芯片的东谈主并不懂AI。

即便惩办了时间艰巨不错部署满血版DeepSeek，从可用到好用还有一段很长的距离。杰克就深有感叹，此前适配大模子的时候，杰克方位的公司跨机通讯也惩办了，然而要杀青性能的升迁难度很大。

这亦然咫尺国产芯片公司适配满血版头疼的问题。

雷峰网了解到，咫尺国内起原的AI芯片公司以4台劳动器（32卡，FP16数据类型），或者2台劳动器（16卡，Int8数据类型）适配满血版DeepSeek的后果也只达到了10tokens/s，其方向是在本月底前能够达到25tokens/s，性能或者是英伟达H100的25%。

另有音尘称，国内上市AI芯片公司在智算中心仍是达到了适配满血版DeepSeek 25tokens/s的性能。

从用户的角度，使用满血版DeepSeek要有比拟好的使用体验有两个相配直不雅的缱绻，一个是首字延长，另一个就是每秒模糊量。简陋而言，首字延长在1-1.4秒是大部分用户能够吸收的延长，而每秒生成20token能称心正常阅读的需求。

这么说来，即就是国内起原的公司，最快也要到本月底达到让用户相对舒心的使用体验。

至于其他AI芯片公司，雷峰网了解到，在上市换取历程里的AI芯片公司有两家适配满血版DeepSeek的速率在10 tokens/s及以下。

AI大芯片公司的张伟判断，改日一个月适配不好满血版DeepSeek的AI公司可能有一半。柏林以为，改日一个季度国产AI芯片齐会赓续适配满血版DeepSeek。

“其他仍是有见效部署大模子造就的芯片公司适配满血版DeepSeek仅仅时期问题。”杰克说，“这些公司里好几家齐处于上市换取阶段，我以为谁能更快、更好支撑好满血版DeepSeek，我以为会大幅增多他们上市的概率，因为许多机构和公司齐在积极部署满血版DeepSeek，故意于AI芯片公司作念出着实的功绩，复旧其上市。”

不外两位芯片投资东谈主齐对雷峰网暗示，A股的见效上市的成分比拟复杂，能够支撑好满血版DeepSeek照实是实力的体现，但对于最终见效上市很难说有奏凯利好。

无用置疑的是，DeepSeek对于国内芯片、智算中心、AI应用齐是渊博利好，咱们仍是处在AI变革前夕。对于AI算力的更多挑战，迎接添加作家微信BENSONEIT询查。

注，文中梓豪、杰克、柏林、博远、张伟均为假名。

Arm自研芯片：背刺客户，却激越股民？

手合手800万期权，上市前下野，AI芯片东谈主的情非得已

7年的AI芯片销售，决定去开网约车

百家乐ag 部分国产芯片适配满血版 DeepSeek，仍「遥不可及」

热点资讯

推荐资讯