发布日期:2024-05-06 01:46 点击次数:78
作家丨朱可轩AG百家乐到底是真是假
编订丨陈彩娴
近期,与 AI Infra 创企魔形智能规划研究团队在由 IEEE 筹画机协会主理的 HPCA 2025(International Symposium on High-Performance Computer Architecture)会议上,发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。
论文建议的 VQ-LLM 框架通过分层代码本缓存和代码本中心筹画引擎两大中枢工夫,收效罢了了高出 50% 的推理蔓延镌汰,性能突出同比特宽度的传统逐元素量化方法。
这一打破为向量量化(VQ)工夫的实质部署提供了可行有打算,在保持谎言语模子高精度的同期,权臣进步了推理遵守。
现时,业界前沿在大模子压缩方面裸表示不少研究遵守,不外很大一部分齐聚焦于单位素量化,而向量量化的平正则在于,极限、等效的比特压缩位宽会低好多,这亦然论文研究所沟通的中枢点。
而这篇论文责任的主要认真东说念主为上海期智研究院 PI、上海交通大学筹画机科学与工程系拔擢寂静文,他于 2010 年 7 月毕业于上海交通大学,获取学士学位。尔后,其又在 2016 年 12 月从德州大学奥斯汀分校电子与筹画机工程系毕业并获取博士学位,博士时代的主攻标的为 GPU 处理器的体绑缚构优化。
现时,寂静文和团队的主要研究意思点还聚焦在芯片架构和硬件互联方面,包括数据流的芯片里面假想以及访佛于超节点的高速互联域的硬件假想。此前,其团队也发布了基于数据流和底层算子的一系列优化组件。
DeepSeek之后国产芯片罢了 FP8 的联系问题激发了业内渊博宝贵,对此,寂静文暗示,“之前莫得大模子的时候,大家以为芯片里的算力也曾够用了,再作念 FP8、FP4 算力就冗余了,是以莫得像英伟达那样提前把低位宽的算力把它堆上去,这一代的芯片齐可能有相通的问题。”
而对于国产芯片的发展,他认为,“要是大家仅仅照抄英伟达的假想方法会历久落伍于他们,照旧得有一些原创性的想考。”这亦然寂静文团队侧重于研究数据流芯片的想考之一。
在他看来,“从国内角度来看,GPU 实质上也曾存在几十年了,红利快走到至极了,再往后芯片的架构以及芯片的编程方法怎么去假想,咱们想通过数据流的形势来处分问题。”
以下是 AI 科技驳倒与寂静文的对话:
向量量化与大模子压缩
AI 科技驳倒:你们团队和魔形智能协作在 HPCA 2025 上发表了一篇论文责任,不错先容一下您和魔形智能这次协作的这篇论文责任吗?你们起始想考去作念这篇责任的起点是什么?
寂静文:咱们认为现阶段大模子很迫切,况兼大模子的筹画量比较大,耗尽的存储空间也比较大,是以当今有个很热点的研究标的是作念大模子压缩,有一系列的代表性的责任是在大模子的量化上,比如把单个元素从原来的 FP16 压缩到 4 比特的 FP 或者 4 比特的 INT,在这个压缩方法里好多东说念主莫得沟通到的点在于不同的元素之间可能存在一定的联系性,这个联系性如何挖掘等于咱们的研究动机。
咱们作念的是原来在向量数据库中的向量量化,把一个 Vector 差异红更小的 Group,然后去挖掘 Group 内元素的联系性,这样就不错更高效地进行压缩。
而向量量化比较于原来单个元素量化的平正在于,它极限、等效的比特压缩位宽可能比原来的单位素量化要低好多,咱们分析包括业界也有不少东说念主指出来,单位素的量化作念到 4 比特差未几就基本上作念到至极了,那这些就要用向量量化,向量化当今作念到两三个比特基本上照旧能用的,校正它的一些量化算法。
AI 科技驳倒:在这篇论文责任中您和魔形智能的团队参与其均分别认真了哪部天职容?
寂静文:咱们交大团队主要建议了这个想法,背面包括执行机器以及执行环境、模子等齐是和魔形智能的团队协作,两边协作比较紧密,咱们也签了一个校企协作的景色,在大模子的基础智商这块沿途作念前沿研究。
https://arxiv.org/abs/2503.02236
AI 科技驳倒:您过往的论文责任果然齐是和系统研究联系的,您的这些训戒对于现时 LLM 联系论文责任来讲,能提供什么样的参考?
寂静文:系统的好多优化方法齐不错来蛊惑大模子的假想,比较迫切的标的是找到系统现时的一些瓶颈,然后联结模子的特质来进行规划假想,这当中咱们作念的责任是去挖掘了一下大模子的参数,或者说它的 KV 缓存里细粒度不同的部分之间存在什么内在关联,怎么应用它们的联系性去作念到比较极致的压缩,这是可供参考的。
往常显存容量、通讯带宽也齐是瓶颈的话,那怎么联结这些瓶颈去让模子更好地适配系统,前段时辰大家商酌比较强烈的 NSA 责任亦然在这个方进取的。
AI 科技驳倒:具体来讲,您以为 NSA 这一责任有什么亮点?给行业带来了哪些价值?
寂静文:之前大家以为稀零是很迫切的,只不外方法是需要去作念静态的基于措施的编订、减枝等,NSA 的价值在于就把稀零假想原生带入到模子的架构中去,有点像 MoE架构,他亦然第一个在驻扎力机制上大要作念端到端学习的责任,讲明咱们之后假想模子的时候,需要把遵守优先的原则带入到模子结构里去。
AI 科技驳倒:你们的研究为向量量化工夫的实质部署提供了可行有打算,在保持谎言语模子高精度的同期,权臣进步了推理遵守,具体是怎么处分的?处分推理蔓延问题的经由中你们也莫得遭遇过难点问题?
寂静文:悉数责任从一运转作念 motivation 到背面的具体罢了,齐照旧比较告成的,因为咱们先捏了一个点,先笃定向量量化到底是不是比原来的单位素量化更有价值,咱们在算法领域找到佐证,我方作念了一些执行也得到比较好的效果,背面的系统罢了齐是咱们的遒劲,莫得特殊难的问题,最运转的难点在于怎么样找到用向量量化的方法来压缩大模子。
AI 科技驳倒:您不雅察看来,海表里还有哪些是比较有价值的探索向量量化打破的前沿责任?和你们的作念法又有什么互异?面前在向量量化这块的研究方面还存在哪些优化空间?
寂静文:面前海表里向量量化用在大模子压缩里的责任分红两种,一种是只作念压缩,然后筹画的时候照旧复原成原来的方法来作念筹画,还有一种是顺利基于压缩后的形势来作念筹画。咱们现时还仅仅作念到了压缩,但是在压缩和筹画的规划优化上咱们还要接续作念,然后当今其实量化仅仅用在了推理上,需要沟通是不是不错把量化也和进修的经由集成起来。
AI 科技驳倒:你们的责任面前是也曾从学术遵守落地到行业内了吗?嗅觉面前业界的解法和学术界最前沿的研究间还存在多大差距?
寂静文:面前论文责任内容模子那儿也曾正在落在联系的家具里面。但是另外一个角度来讲,学术界宝贵前沿研究,更具有前瞻性,要比行业落地早几年。可能当今作念的东西要是五年后大家以为有用再去沟通落地,这会更有前瞻性一些,以此为方针去作念学术研究,而不是说当今什么火就去作念什么。
DeepSeek 带来的想考
AI 科技驳倒:您认为 DeepSeek 这种 671B 的 MoE 模子量化起来会有什么难点?这样大参数的稀零模子该如安在尽量减少精度损失的同期进步推理遵守?你们的论文责任对此有什么参考价值吗?
寂静文:面前 DeepSeek 最大的难点在于要跑起来 671B 参数的模子,对机器条件比较高,量化起来速率比较慢,是以咱们一般是在小小数的模子上去考据一下方法的有用性。
其中有个比较迫切的点在于,671B 的 MoE 模子的每个内行不是每次推理齐被会被激活的,当今的一些量化方法其实需要有一些内行被激活后,拿到中间收尾后再进行量化压缩,是以最大的问题在于这种 MoE 模子不是每次齐激活内行,那么怎么去量化算法,怎么去沟通身分进行相应的调度,除此除外,DeepSeek 的模子跟之前的其他模子也莫得太大区别。
AI 科技驳倒:您如何评价 DeepSeek 进修大模子是软硬一体协同的?包括当今有不雅点认为,模子其实照旧需要凭据现存的硬件结构作念调度的,您怎么看?
寂静文:我以为模子在结构上莫得太多凭据硬件结构作念的想考,不外也有一些底层想考是在软硬件一体方面,当今的模子架构告诉咱们不错通过作念 Attention 来挖掘一些有用的信息,包括进修和现时的 prompt 里面的信息,Attention 是最主要的形势。
那么变成 Attention 的筹画方法,咱们当今照旧要一一元素作念内积,但是需要沟通到这是不是最有用的方法,有莫得更高效的方法去作念 Attention 的,比如说,咱们当今沟通的等于基于向量量化,要是多个向量的 Group 之间莫得快速作念 Attention 的筹画形势,不一定要一一元素相乘然后作念内积,这方面上海交大也建议过块状稀零的模子架构,在往常会更高效一些。
AI 科技驳倒:前阵子对于 MaaS 的商酌也很强烈,您如何评价这个问题?这是否只然而大厂的生意,对于小厂来讲注定耗损?
寂静文:我看了 DeepSeek 我方估算的资本,他们给出来的有打算大要罢了比较低的资本,我以为从历史的训戒来判断,最终要商用服气是有意润空间的,仅仅说最终硬件不一定是以当今这种 GPU 的形势来部署,有莫得更高效的硬件部署方法,访佛于大家之前用苹果 Mac 的 studio,ag百家乐积分有什么用它有一个很大的 unified memory,用这种硬件架构来部署,通过一个很大的 memory 镌汰较大资本。
是以这当中的优化空间是有的,但齐是从交易资本的角度去沟通,以至包括当今大家作念的以存代算的责任,因为不仅要作念 serving,Cache 那层也要作念好,不是说每一个苦求齐要算的,中间还要掷中一些历史收尾,以存换算亦然这当中不错优化的点,要是能把模子的部署资本降到极致是能作念下去的。
AI 科技驳倒:小厂大要复现DeepSeek官方的部署优化有打算比如内行并行(Expert Parallelism,EP)的话,是否能有一线但愿?当今也有厂商也曾作念到了,您觉妥贴中会有什么难点?
寂静文:内行并行要作念到多 GPU 之间的通讯比较难,当今不作念 EP,作念原来的 DP、TP 等齐有官方写好的相聚通讯库来调用,作念 EP 的话有好多点对点的通讯,通讯和筹画之间的 Overlab 齐会比较难,而且英伟达本人也还莫得推出比较好的方法来罢了 EP,导致当今大家齐不太好作念,而且面前大家也齐是基于英伟达的生态来作念,莫得国产生态不错作念这些。
AI 科技驳倒:DeepSeek 也开源了一系列代码库,果然齐在围绕英伟达 GPU 张开,这给你们的研究责任带来了哪些有价值的参考?
寂静文:DeepSeek 开源的一系列内容中我比较宝贵算子生成这一步,因为主要聚焦在单个 GPU 的研究,这当中有些模仿酷爱。另外,在多 GPU 的编程上咱们团队面前也在开展一些研究,不是基于 GPU 的假想来。
咱们团队的芯片架构研究主要蚁合于数据流芯片,不是作念 GPU 上的死心流的方法,国外像 Cerebras 作念的大芯片、Tenstorrent 的芯片亦然访佛于数据流的,但是国外大家齐能买到英伟达的 GPU,是以大家不一定会去购买他们,而从国内角度来看,GPU 实质上也曾存在几十年了,红利快走到至极了,再往后芯片的架构以及芯片的编程方法怎么去假想,咱们想通过数据流的形势来处分问题。
国产芯片的契机点
AI 科技驳倒:你们面前为止在数据流方面齐作念了哪些联系责任?也曾处分了哪些业内难点问题?
寂静文:咱们对标于 GPU 的 CUDA 编程生态,用的概述机是基于单教导、多线程的架构,咱们不错在 GPU 上作念好多蛊惑,它有很好的生态。咱们作念的数据流芯片是在先沟通了概述机的假想,咱们也发表了一篇汉文期刊著述,呈报咱们在数据流的概述机上用基于代码块的、比较精粹度的数据流形势,同期大要去兼容 CUDA 的概述机,咱们能处分的问题是往常假想 AI 芯片的话,AI 芯片下面的概述模子不一定非得作念成英伟达 GPU 的架构,而是不错用代码块的数据流形势来处分。
http://engine.scichina.com/doi/10.1360/SSI-2024-0343
AI 科技驳倒:数据流芯片的假想研究有何难点?
寂静文:数据流芯片造出来是比较好造的,要道难点是在这上头怎么样去蛊惑一个不错对标 CUDA 的生态,咱们的方法是从底层的概述机运转动手,去构建概述模子,然后基于此去作念编程话语上的责任和编程器用的蛊惑。
面前来看,数据流的学习资本是比较高的,数据流作念起来编程方法和想考旅途和原来的死心流冯诺伊曼架构是不一样的,门槛比较高,是以后续怎么较低学习资本是现阶段最需要想考的问题。
AI 科技驳倒:大集群优化亦然个比较难的系统问题,在您看来,这当中有什么难点?你们有在作念这方面的研究吗?处分了什么问题?
寂静文:现阶段万卡集群、千卡集群齐也曾研究得比较好了,主要等于作念容错以及高效的 4D 并行等,当今大集群的演进标的,GPU 的高速互联域会作念得越来越大。
就像英伟达的GB200 的 NVL72 或者 NVL144 这种有打算,等于在一个高速互联域里面集成 72 个 GPU 或者集成 144 个 GPU,这种大集群国内面前照旧买不到的,一机八卡的 H100 国内有,大家不错在上头研究,多台就业器作念 Scale-out 作念成万卡也齐不错,但是英伟达不是在这个工夫门路献艺进,他们作念的有点像华为提的超节点看法,这种节点的优化往常会变得愈加迫切。
AI 科技驳倒:华为云前段时辰也发布了 CloudMatrix 384 超节点,堪称大要与英伟达的 NVL72 并列,在您看来 CloudMatrix 384 有什么亮点?带来了哪些打破性进展?给国内生态带来了哪些助力?
寂静文:他们能和英伟达 NVL72 果然同步发布,讲明国内的想考是走在国际前哨的。工夫上的亮点在于互联的结构,华为作念了一个长入的、互联的结构,不错让碎屑化的通讯长入,在编程生态上会有不少的匡助,不外咱们当今也莫得拿到这个超节点去使用,后续可能会在上头作念更多研究。
AI 科技驳倒:面前,唯有英伟达的芯片才智活泼罢了 FP8 进修并料理,国产芯片仍反抗在 BF16/FP32 料理贫乏的路上,新的 FP8/BF16/FP32 夹杂进修又给国产芯片假想加了一说念新难关,从您这段时辰的不雅察来看,国产芯片在 DeepSeek 之后打破进展如何了?还有哪些难题亟待打破?
寂静文:面前国内作念AI芯片的包括两条门路,一种是类 CUDA 的架构,还有一些等于以很是于 CPU 去膨胀作念 CND的方法,要是大家仅仅照抄英伟达的假想方法会历久落伍于他们,照旧得有一些原创性的想考,作念一些提前布局,可能在每一代的英伟达芯片里面大家齐莫得太宝贵过 BF16、FP16 这些,因为之前莫得大模子的时候,大家以为芯片里的算力也曾够用了,再作念 FP8、FP4 算力就冗余了,是以莫得像英伟达那样提前把低位宽的算力把它堆上去,这一代的芯片齐可能有相通的问题。
另外是在编程生态上,因为英伟达的生态比较灵通,有好多开源社区,好多学者齐在里面作念优化,包括 DeepSeek绕过 CUDA 用PTX亦然英伟达基于下面灵通的臆造教导集罢了的。但是国产大家照旧停留在推我方的有打算,不但愿让其他东说念主去了解下面的假想、优化细节,是以我以为国产要作念起来,硬件是护城河,但是灵通的生态也要作念起来。
AI 科技驳倒:面前还有哪些系统问题是比较难且亟待处分的?你们后续的研究要点主要集聚焦于哪一块?
寂静文:系统方面面前比较难处分的问题一是在于大模子要作念成 Agent 智能体的形势,会波及到屡次的调用,这当中会波及到系统如何去扶直的问题,包括想维链重复上强化学习搜索的方法往常如何去作念系统扶直,但咱们后续的研究要点可能不成那么侧重于系统,往常照旧想聚焦于作念芯片架构和硬件互联,包括数据流的芯片里面假想以及访佛于超节点的高速互联域的硬件假想,面前这种硬件假想还在蛊惑经由中。
AI 科技驳倒:那您以为国内芯片厂商、系统厂商能给模子厂商带来哪些助力?DeepSeek 之后,国内该如何发达各自长处鼓吹大模子进一步发展呢?
寂静文:往常芯片、系统和模子厂商的协同会在两个方面。一是在新的模子架构的假想上,包括 MoE、NSA 模子以及块状稀零模子、驰念体立方模子等等,这些在学术界齐有新的进展,但是要作念进修的话,还有好多文本、进修集还有机器范围的问题,当今学术界还作念不到,是以作念芯片、系统的还不错联结新的模子架构来尝试一下。另外等于接续推模子的袖珍化、轻量化,模子厂商不错响应给芯片厂商一些新的假想想路和理念,不错进一步鼓吹降本。
AI 科技驳倒:近期,英伟达 H20 出口受限也激发了多数宝贵,要是连最低端的英伟达芯片齐进不来,国内会受到什么样的影响?针对于此,国产芯片厂商又能作念些什么?
寂静文:大家买 H20 照旧在于一是 CUDA 生态,二是 H20 有很高的带宽,在大模子的推理场景大要发达很好的作用,这给国内芯片厂商带来两个启发,起始要贯注于生态的构建,作念一个长入的开源生态,另外是要处分 HBM 的问题,咱们需要更好的、高带宽的内存假想方法,比如不错沟通访佛于 CXL 的互联形势可不不错去代替现时的 HBM,或者作念 3D 堆叠芯片,在芯片上堆叠大的 SRAM 缓解 HBM 的需求。雷峰网雷峰网