
Transformer依托强盛的建模才略和Scaling效能在推选鸿沟被鄙俗应用于超长序列建模和生成式推选等观点,但
复杂度,能在不作念序列截断的情况下处理纵情长度的行动序列,
的蓄意支出不得不作念出各式谐和:举例将self-attention改为cross-attention或local-attention、序列截断、序列压缩等。这些采用虽缓解了蓄意压力,但不可幸免地圆寂了序列中的长程行动模式。受LLM鸿沟线性谨防力(LinearAttention)及羼杂架构忖度的启发,线性谨防力自然具备
可能是推选鸿沟比Transformer更匹配的底层架构。然而,现存线性谨防力模子每步只可作念rank-1的浅层写入,建模质料与Transformer仍有差距;而具有多步深度写入才略的TTT(Test-TimeTraining)虽质料突破,却因串行依赖导致历练申辩量比线性谨防力慢,难以工业部署。
为此,腾讯告白技能团队与北京大学互助建议PRISM(ParallelResidualIterativeSequenceModel)——在保握线性谨防力
复杂度的同期,竣事TTT级别多步深度写入的序列模子。PRISM通过分析TTT-MLP的梯度结构,揭示其高抒发力源于步长×残差×观点的多步迭代模式,并发现这一高抒发力与串行瓶颈是吞并根因(权重迭代更新)的两面。基于这一知悉,PRISM在兼容parallelscan的线性景况上显式重建了该迭代模式,通过局部anchor代理排斥token间串行,通过闭合式预测算排斥step间串行,最终呈现为一个调治的残差拟合过程:第一步当然退化为线性谨防力的圭臬写入,后续步以不到10%的参数增量叠加低秩修正。在四个序列推选基准上,PRISM匹配TTT质料且申辩量提高174倍;与一丝Transformer层构成羼杂架构后超越纯Transformerbaseline。
该职责已被机器学习鸿沟顶级会议ICML2026托福,论文题目“PRISM:ParallelResidualIterativeSequenceModel”。
开云体育app2026世界杯中国官网下载一、布景:从无尽背包到有限背包
(一)Transformer的无尽背包与线性谨防力的有限背包
Transformer的Attention机制执行上是一个"无尽背包":它把每一个token的KV都好意思满保存在KVCache中,推理时逐个比对。这带来了极强的抒发力,但存储和蓄意量随序列长度N呈
增长,当高下文达到百万token量级时,即便顶尖GPU也难以承受。
为此,一系列线性复杂度序列模子(如LinearAttention、RWKV、Mamba、GatedDeltaNet等)建议了"有限背包"决议:用一个固定大小的景况矩阵
压缩存储整个历史信息。岂论序列多长,S的大小不变,复杂度降为
背包容量有限,每来一个新token,模子必须决定往里写什么、同期擦掉什么。这个"写与擦"的章程,决定了有限背包模子的天花板。但在潜入磋磨"写与擦"之前,咱们先要回复一个更基本的问题。
(二)有限背包执行上是RNN,为何还能并行?
照实如斯,有限背包模子的数学样式执行上即是RNN:

每一步的景况,无法平直并行化。那为什么天下说LinearAttention/Mamba是"可并行的"?
一步步算到
,这看起来自然串行,必须从
依赖上一步的
要津在于一个数学技能:ParallelScan(并行前缀扫描)。
当递推相关(recurrence)的样式称心线性结构
(其中
都只依赖刻下输入,不依赖
)时,这个递推不错被改写为称心合资律的二元运算。一朝称心合资律,就不错用访佛"求前缀和"的方式并行蓄意,其旨趣与经典的parallelprefixsum算法疏导,区别仅在于基础运算从标量加法推论为"矩阵乘法+加法"。
具体来说,N步的串行递推不错在
),但在GPU上墙钟时间大幅裁汰。
的深度内完成,代价是多作念了一些冗余蓄意(总蓄意量变成
但这里有一个很强的前提:和必须是历史景况无关的,它们只关联词刻下输入的函数,不可依赖或需要读取
才能算出来,合资律就不确立了,就无法应用parallelscan竣事并走时算。
。一朝
GDN称心这个要求:
都只依赖刻下输入。是以GDN不错用parallelscan并行历练。
和
(三)为什么并行这样困难?GPU的"搬运工"瓶颈
一个常见的诬告是将"串行慢"归因于更多的浮点运算。执行上,瓶颈在别处。当代GPU的蓄意中枢(TensorCore/CUDACore)算力极为充沛,A100GPU每秒能作念312万亿次浮点运算(312TFLOPS)。信得过的瓶颈不是"算",而是"搬"。
GPU的存储分为两层:
HBM(HighBandwidthMemory,高带宽显存):容量大(40-80GB),但读写速率"慢"(约2TB/s)。模子参数、state矩阵S、中间activation都存在这里。
SRAM(片上缓存):容量小(每个SM约192KB),但读写速率极快(约19TB/s,快10倍)。GPU的蓄意中枢只可平直探问SRAM。
打个譬如:SRAM像职责台(小但垂手而得),HBM像仓库(大但每次取货要走一回)。
是以每一次蓄意都要履历一个"搬运"过程:把数据从HBM搬进SRAM,在SRAM里算完,再把收尾搬回HBM。这个搬运的时间频频远超蓄意本人,这即是所谓的memory-bound(存储带宽瓶颈)。
Parallelscan+fusedkernel的信得过威力在于:把通盘序列的N步递推打包成一个大算子(fusedkernel),S矩阵只需要从HBM搬进SRAM一次,在SRAM里承接算完整个步,再搬且归。数据搬运次数从
降到
要是不可parallelscan(比如TTT),每个token都要独巧合跑一遍迭代蓄意,每个token都要独占一次HBM与SRAM之间的搬运,搬运次数是
退化到
,硬件期骗率断崖式下降。实测TTT-MLP比GDN慢174倍,根源不在于浮点运算量的等比加多,而在于HBM↔SRAM数据搬运次数从
能否适配parallelscan不仅是算法设计上的好意思学遴荐,更平直决定了10-100倍的执走时行速率各异。
(四)Rank-1写入的瓶颈
以GDN(GatedDeltaNet)为代表的线性谨防力模子,每个token对S作念的是一次rank-1更新:

"擦"的部分竣事了遴荐性淡忘:是全局scalargate欺压合座衰减,
在方朝上作念rank-1的遴荐性淡忘,为新写入腾出空间。信得过的瓶颈在“写”:每次只可往S里写入一个rank-1的外积
的记挂矩阵上只更动了"一滑”。
(即两个向量的乘积,收尾矩阵的整个行都是吞并个观点的缩放),尽头于在通盘
要是一个token佩戴的语义是多维度的(它同期是某个句法结构的因素、某个语义扮装的载体、某个topic的要津词),rank-1的一滑写入无法同期在这些维度上作念宽阔转机。信息在压缩写入时不可幸免地丢失。
中枢矛盾:背包有限,每次却只允许写一滑。这是刻下整个线性复杂度模子的共有瓶颈。
(五)TTT的突破与代价
既然rank-1写入太浅,一个当然的想法是:让模子学会更深的写入章程。
TTT(Test-TimeTraining)系列职责采取了一种根人道不同的政策:把记挂景况从一个linear矩阵S升级为一个MLP的权重矩阵。每来一个token,对MLP的权重作念多步梯度下降(multi-stepGD),冉冉爽快写入内容。这带来了显贵的质料提高。
但TTT的多步GD破碎了历史景况无关前提。每步的梯度
,带来174倍的速率差距。
退回
不再是输入的纯函数,parallelscan的数学前提从根蒂上被破碎。后果很平直:每个token的蓄意都要独巧合、串行地跑一遍梯度下降轮回,fusedkernel打包不了,HBM与SRAM搬运次数从
又依赖前一步,这让
,而
依赖刻下权重
PRISM要处分的中枢问题:设计一个多步写入机制,同期称心两个要求——(1)像TTT一样有步长×残差×观点的多步迭代深度;(2)像GDN一样
都是历史景况无关的,能被打包成parallelscan的fusedkernel。
二、分析:TTT-MLP为什么后果好,但速率慢?
在设计PRISM之前,开云体育中国官网入口咱们最先潜入分析TTT-MLP的梯度结构,弄明晰它的高抒发力到底从何而来。
(一)步长×残差×观点模式的自满
TTT-MLP的景况是两层网罗
。张开其W₂的梯度更新:
每步更新具有一个结构模式:
步长:
,每个hiddenunit的activation,欺压写入强度
残差:,刻下还没写好的部分,跟着更新冉冉递减
观点:
每步更新是以观点每步不同
,写入的观点,因为
TTT-MLP的高抒发力正来自这个步长×残差×观点模式:多步残差递减提供了优化深度(depth),W₁多行提供多个观点则提供了抒发宽度(width/rank-L)(即同期修改S矩阵的L个孤独维度)。
(二)高抒发力与串行是吞并根因的两面
要津知悉:驱动步长×残差×观点模式的是权重每步更新。正是因为
每步都在变,观点才会变(width),残差才会减(depth)。但吞并个“权重每步更新”也恰正是串行的根源。
具体来说,它形成了两个维度的串行瓶颈:
1.Token间串行(Inter-tokenSeriality)
瓶颈A(淡忘与写入的耦合):TTT的梯度更新让S的淡忘和写入纠缠在一皆,recurrence无法写成第一节所述的线性样式
,parallelscan的前提不再称心。
瓶颈B(残差依赖历史景况):每个token的残差
,整个token的蓄意过程只可列队推论。
需要读取前一个token的精准景况
2.Step间串行(Intra-stepSeriality)
瓶颈C(观点与残差的同步):在多步GD中,第l+1步的写入观点必须恭候第l步的权重更新结束才能细目,残差也必须等上一步算完才能得到,强制引入一个无法张开的轮回。
瓶颈C是最中枢的矛盾:它同期是rank-L抒发力的载体和步间串行的根源。因此排斥瓶颈C不可浮浅取消迭代,必须在取消同步耦合的同期保留多观点和残差递减带来的抒发力。
三、才略:PRISM的设计与竣事
基于上述分析,PRISM的政策相称明确:在兼容parallelscan的线性景况S上显式重建TTT-MLP的步长×残差×观点模式,然后分维度排斥串行。
(一)中枢迭代样式:步长×残差×观点
PRISM显式构造了TTT-MLP的多步迭代模式:

每步是
(步长×残差×观点),L步积贮rank-L写入。
与TTT-MLP的对应相关:

为什么PRISM必须用学得的
的外积,对loss求梯度时,行观点老是与k共线,梯度的行观点锁死在k方朝上,L步GD积贮遥远rank-1。TTT-MLP之是以能rank-L,是因为
而不可平直作念多步GD?因为在线性景况S上,线性景况的写入是
MLPhiddenlayer的非线性提供了隐式的多观点。PRISM在线性景况上莫得hiddenlayer,必须显式引入L个可学习观点来补回这一才略。
(二)排斥Token间串行:A/B分手+局部Anchor代理
淡忘/写入分手(处分瓶颈A):PRISM的淡忘项保握跟GDN透澈一致
内。使迭代式保握
,整个非线性操作限度在写入项
样式,parallelscan骨架不动,Mamba的scankernel平直复用。
局部Anchor代理(处分瓶颈B):用局部历史景况
(局部anchor基于短卷积(ShortConv)竣事)替代全局景况S。Anchor只依赖局部输入窗口,不读S,整个token的迭代蓄意不错同期运行。
至此,序列级别的parallelscan已透澈规复。anchor让不同token的迭代不错同期启动,但每个token里面的L步之间仍需规定推论(瓶颈C)。
(三)排斥Step间串行:解耦链+闭合式预测算
处分瓶颈C。因为有了anchor,两条链当然解耦:
Directionchain解耦:
,因为anchor是事先给定的局部统计量(不依赖迭代过程),整个L个观点不错同期算出。
Residualchain线性化:将迭代内的GELU非线性领受进事先蓄意好的缩放所有(preconditioner)
,梯度下降的迭代过程退化为纯element-wise线性递推:
由此多步迭代推算得到闭合式:

L步的串行轮回被消解为单步闭合式蓄意。通盘多步梯度下降蓄意过程不错编译成一个fusedkernel,数据只需要从HBM搬进SRAM一次。
(四)架构全貌与GDN退化
多步梯度下降蓄意过程的原始产出是L个rank-1迭代蓄意:

不雅察迭代第一步使
,就得到了GDN+非线性修正项的样式:
,此前锋无前序输出,残差等于运转输入本人,且无需经过非线性变换,因此第一步的写入当然退化为

PRISM不错视为一种多步残差拟总蓄意过程,L=1时精准退化为GDN。后续步仅仅在第一步的基础上追加非线性修正,且不错使用lowrank网罗增量,迥殊参数目不超越基础模子的10%。
四、实验收尾
(一)序列推选
在公开序列推选基准Amazon上,PRISM推崇与Transformerbaseline后果接近,超越大多量线性谨防力类才略。蓄意效能方面,PRISM与GDN同级,比TTT-MLP快174倍。

(二)说念话建模(基于SlimPajama2B历练,130M参数)
在更大鸿沟的说念话建模实验上(SlimPajama2Btokens,Mistraltokenizer),PRISM相通赢得了全面率先:

PRISM在WikiTextPPL、LAMBADAPPL和9项Zero-Shot卑劣任务平均准确率上均为最优,率先GDN3.2个百分点。
(三)组件消融

历练PPL各异极小,但卑劣泛化各异弘大。单步solver(L=1)的历练PPL简直等于好意思满版,但AvgACC下降2.9个百分点——rank-L的信得过价值不在next-tokenprediction上,而在需要精准长程检索的卑劣任务上。
更值得谨防的是shared-Kvsbase-K的对比:solver两步共用孤独的简直不掉分(−0.3),但复用GDNbase的key则大幅退化(−1.5)。这证明solver需要我方的观点空间,在GDN依然写入的key方朝上重迭操作无法补充新信息。
五、延长想考
(一)有限背包终究有限,羼杂架构也许是势必
即使有了rank-L的深度写入,有限背包终究是有限的。S的容量是
,当序列长到几十万token,要津信息如故可能被隐藏。
从PRISM的视角看,这个直观有一个很好的技能评释。PRISM用短卷积(ShortConv)蓄意的局部anchor替代全局景况S来近似残差。由于短卷积窗口接续只隐藏最近3-4个token,关于需要进步数千步的长程依赖,近似质料势必下降。
要是在PRISM层之间穿插一丝Transformer层,后者就充任了一种全局的、非线性的历史景况精准蓄意器,能抵偿anchor在长程上的近似时弊。从这个角度看,Transformer本人即是ShortConvanchor的"全局升级版":ShortConv用固定窗口的局部卷积近似历史景况,Transformer用全局attention精准算历史景况。
这也许评释了为什么近期简直整个推崇最佳的长序列模子(Jamba、Zamba、Griffin等)都接管了羼杂架构:不是因为LinearAttention或SSM存在才略颓势而需要Transformer行动补充,而是因为有限背包和无尽背包在架构层面是互补的。前者提供
的高速处理和压缩存储,后者提供精准的长程检索。羼杂架构让模子有机和会过Transformer层找回有限背包中丢失的信息。
(二)线性谨防力的LoRA?
PRISM的最终样式有一个意旨的结构特征:

这个"基础迭代过程+lowrank旁路"的样式,跟LoRA(Low-RankAdaptation)相称相似,这启发了一个微调场景下的意旨想路。
LoRA的中枢想想是:冻结预历练好的大模子权重,只在要津层独揽加一条low-rank旁路来作念微调。受PRISM样式的启发,咱们不错联想一种面向LinearAttention/SSM模子的参数高效微调才略:对已历练好的模子,冻结基础迭代过程,只在写入歧路上加多一条PRISM格调的残差拟合旁路,此外,这条旁路有闭合式(不加多历练时间),何况第一步退化为原模子的圭臬写入(不破碎预历练常识)。这意味着它称心LoRA的两个要津要求:参数高效和不毁伤原模子才略。
结语
PRISM考据了"写入前想考"范式在线性谨防力模子中的可行性:通过分析TTT-MLP的梯度结构揭示步长×残差×观点迭代模式,在线性景况上显式重建该模式并通过anchor代理和闭合式预测算竣事透澈并行。最终架构极简——GDN+非线性旁路,历练速率与GDN同级,参数增量不到10%。在推选和说念话建模两个场景上的考据标明,这是一项通用的线性谨防力增强技能。以前咱们将进一步探索PRISM在更大参数鸿沟上的scaling行动和推选系统上的应用后果,以过甚行动线性谨防力模子参数高效微调才略的执行后果。
参考文件:
[1]Sunetal.“Learningto(LearnatTestTime):RNNswithExpressiveHiddenStates.”NeurIPS2024.
[2]Yangetal.“GatedDeltaNetworkswithPairwiseTokenizedGraphs.”NeurIPS2024.
[3]Katharopoulosetal.“TransformersareRNNs:FastAutoregressiveTransformerswithLinearAttention.”ICML2020.开云体育中国官网入口

备案号: