ag真人百家乐怎么赢
热点资讯

AG百家乐感觉被追杀

你的位置:ag真人百家乐怎么赢 > AG百家乐感觉被追杀 > ag百家乐怎样杀猪 算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

ag百家乐怎样杀猪 算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

2024-12-31 18:30    点击次数:177

一水 发自 凹非寺量子位 | 公众号 QbitAIag百家乐怎样杀猪

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit历练,在不亏蚀精度的情况下,大幅省俭算力(↓97%)和存储(↓90%)。

最近,从事机器学习的Will小哥发了一篇论文,径直引来几十万网友or同业围不雅。

他提议了一项名为“noise_step”的新技巧,允许模子径直在1.58-bit低精度下历练,且无需反向传播或动量(Momentum)加快,从而镌汰算力和存储滥用。

对此,网友们也纷繁发来祝福,暗示很景象看到模子越来越具有性价比。

话未几说,来看论文具体本色。

反向传播不需要了

粗浅说,noise_step的观念是通过镌汰模子历练的精度条目,来减少算力和存储滥用。

一入手,作家提到前东说念主商讨如故标明,大谈话模子(LLM)的推理不错在1.58-bit精度下进行,且不会有任何性能亏蚀。

比如底下这篇论文,有东说念主引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同期在蔓延、存储、微辞量和算力滥用方面老本更低。

然则,上述变体是在推理时使用低精度,而在历练时仍需高精度权重。

因此,noise_step的一个中枢差别是:无需反向传播。

允许模子径直在1.58-bit(三元)精度下进行历练,而不需要传统的反向传播(从后上前搜检每一层)或动量门径。

注:反向传播(Backpropagation)是历练神经荟萃的核默算法,它通过反向逐层计较亏蚀函数对每个权重的梯度,来反向逐层更新荟萃的权重,从而最小化亏蚀函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中先容了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度忖度门径。

粗浅说,通过在前向传播中引入立地性,不错生成一个立地向量。这个立地向量与观念函数的梯度之间的对都不错通过计较JVP来评估。

通过在多个立场所进取重叠JVP计较,不错网罗弥漫的信息来忖度统统这个词梯度向量,从而完结不依赖于反向传播的梯度忖度。

will小哥的具体门径如下:

历练老本打下来了

上述神色意味着,AG百家乐感觉被追杀noise_step允许使用更稀零的立地向量和粗浅的对都值。

要知说念传统的梯度计较需要大都计较资源,而noise_step由于不需要存储或传输大都数据,从而减少了存储使用。

此外,由于noise_step使用伪立地噪声,它只需要一个种子(运转值)就能复现统统这个词历练经过,这意味着不需要存储大都的扰动向量,从而进一步减少了存储需求。

而且使用noise_step历练的模子不错存储历练门径而非权重,这可能会大幅削弱模子尺寸,从而更快地下载模子。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模子?

同期由于上头提到的伪立地噪声门径,这种特质允许还原权重的完好历史,因为每个门径都是细目性的,而且不错独处于其他门径进行计较。

因此微调将变得愈加高效,致使可能允许对畴昔的历练门径进行裁剪,举例翻转(negation)或屏蔽(masking)。

举个例子,若是发现某个历练门径对模子性能产生了负面影响,不错对其进行转换而无谓再行历练统统这个词模子。

也即是说,东说念主们在历练经过中能进行更综合的限制和转换了。

临了,作家以为这种神色尤为相宜分散式历练。

在分散式历练中,频繁需要在不同的计较节点之间同步梯度和优化器现象,这会截止历练的速率。而noise_step通过减少每个扰动所需的位数,显赫镌汰了通讯量,从而进步了分散式历练的成果。

不外这也导致模子闪现变得愈加容易,因为统统这个词模子不错通过几个字节的历练门径来传输。

对了,will小哥暗示JVP不错和浩荡推理并走时行,着实不增多老本。

除了论文,他也提供了一个CPU完结经过:

One More Thing

BTW,小哥在上共享完论文后,还顺带吐槽arXiv不给意义就拒却了这篇论文。

自后他才补充,蓝本是卡在了背书(endorse)这一项,也即是需要现存用户的推选或通过其他神色取得背书。

无奈之下,这篇论文当今被小哥放在了GitHub上。

感酷爱酷爱的童鞋不错进一步稽查。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU完结经过:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考贯穿:https://x.com/_brickner/status/1871348156786704657



Powered by ag真人百家乐怎么赢 @2013-2022 RSS地图 HTML地图

Powered by365建站