Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能水平。本文提出了一种新颖的模型架构,Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。实验证明,RWKV 的性能与相同规模的 Transformer 相当。
深度学习技术在人工智能领域取得了重大进展,在各种科学和工业应用中发挥了关键作用。这些应用通常涉及复杂的序列数据处理任务,包括自然语言理解、对话式人工智能、时间序列分析等,其中用到的技术主要包括循环神经网络(RNNs)、卷积神经网络(CNNs)和 Transformer 等。
(资料图)
不过,这些方法各自存在不同的缺点,从而限制了它们在某些场景下的效率。循环神经网络(RNNs)面临着梯度消失的问题,使得它们难以对长序列进行训练。此外,在训练过程中无法在时间维度上并行化,进而限制了其可扩展性。另一方面,卷积神经网络(CNNs)只擅长捕捉局部模式,在处理长程依赖方面还很欠缺,而这对于许多序列处理任务至关重要。
Transformer 模型由于其处理局部和长程依赖关系的能力以及可并行化训练的特点而成为一个强大的替代方案,如 GPT-3、ChatGPT、GPT-4、LLaMA 和 Chinchilla 等都展示了这种架构的能力,推动了自然语言处理领域的前沿。尽管取得了这些重大进展,Transformer 中固有的自注意力机制带来了独特的挑战,主要是由于其二次复杂度造成的。这种复杂性使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。这也促使了大量研究的发布,旨在改善 Transformer 的扩展性,但往往以牺牲一些特性为代价。
为了应对这些挑战,一个由 27 所大学、研究机构组成的开源研究团队,联合发表论文《 RWKV: Reinventing RNNs for the Transformer Era 》,文中介绍了一种新型模型:RWKV(Receptance Weighted Key Value),这是一种新颖的架构,有效地结合了 RNN 和 Transformer 的优点,同时规避了两者的缺点。RWKV 设计精良,能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使 Transformer 在这个领域占主导的一些性质。
论文地址:https://arxiv.org/pdf/2305.13048.pdfRWKV 模型下载:https://huggingface.co/BlinkDL/rwkv-4-ravenDemo 地址:https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B本文利用线性注意力机制,允许将模型定义为 Transformer 或 RNN,从而在训练期间并行化计算,并在推理过程中保持恒定的计算和内存复杂性,使其成为第一个可扩展到数百亿参数的非 Transformer 架构。
RWKV 其中的一个特征是它能够提供并行训练和强大的可扩展性,类似于 Transformer。此外,该研究对 RWKV 中的注意力机制进行了重新阐述,引入了线性注意力的一个变体,避开了传统点积(dot-product)token 交互,转而采用更有效的通道导向注意力( channel directed attention )。这种方法与传统的 Transformer 架构形成了鲜明的对比,其中特定的 token 交互主导了注意力。在 RWKV 中,线性注意力的实施是无需近似的,这在效率上提供了显著的改进,并增强了可扩展性,详见表 1。
该研究表示,开发 RWKV 的主要动机是弥补神经网络架构在计算效率和表达能力之间的差距。它为处理涉及数十亿参数的大规模模型的任务提供了一个有希望且可行的解决方案,以极低的计算成本展现出强有力的竞争性。
实验结果表明,RWKV 可以成为一个有价值的工具,用于解决各个领域扩展和部署人工智能模型的各种挑战,特别是那些涉及序列数据处理的领域。RWKV 为下一代更可持续、计算效率更高的序列处理任务的 AI 模型铺平了道路。
总结而言,本文的贡献如下:
引入了 RWKV 网络架构,该架构结合了 RNN 和 Transformer 的优点,同时减轻了它们已知的限制。本文提出了一个新的注意力机制重构,进而提出线性注意力,避开了与标准 Transformer 模型相关的二次复杂性。本文在基准数据集上进行了一系列全面的实验,展示了 RWKV 在处理涉及大规模模型和长距离依赖任务上的性能、效率和可扩展性。发布了预训练模型,其大小从 1.69 亿到 140 亿的参数不等,这些模型是在 Pile 上训练的。值得注意的是,论文参与机构之一的 EleutherAI 表示:这篇论文还不是最终版本,后续会不断完善。
RWKV 模型RWKV 架构的名称来源于时间混合和通道混合块中使用的四个主要模型元素,分别如下:
R:Receptance 向量,用于接收以往信息;W:权重(weight)是位置权重衰减向量,是可训练的模型参数;K:键(Key)是类似于传统注意力中 K 的向量;V:值(Value)是类似于传统注意力中 V 的向量。每一时间步的主要元素之间的交互是相乘增加的,具体如下图 2 所示。
架构细节
RWKV 架构由一系列堆叠的残差块组成,每个残差块又由具有循环结构的时间混合和通道混合子块组成。
循环被表示为当前输入和前一个时间步的输入之间的线性插值(研究者称这种技术为时移混合或 token shift,如下图 3 所示),该插值可以针对输入嵌入的每个线性投影进行独立调整(比如时间混合中的 R、K 和 V,通道混合中的 R 和 K),并作为公式 14 中形式化的 WKV 的时变更新。
类 Transformer 的并行化
RWKV 可以在时间并行模式下进行高效地并行化,让人联想到 Transformer。单个层中一个 batch 序列的时间复杂度为 O (BTd^2 ),它主要由矩阵乘法 W_□, □ ∈ {r, k, v, o}(假设 B 个序列、T 个最大 token 和 d 个通道)。同时更新注意力分数 wkv_t 需要串行扫描,并且复杂度为 O (BTd)。
类 RNN 的序列解码
在循环网络中,将状态 t 时的输出用作状态 t+1 时的输入很常见。这在语言模型的自回归解码推理中尤为明显,要求每一个 token 在馈入下一步之前必须进行计算,从而使 RWKV 可以利用类 RNN 结构(即时序模式)。在这种情况下,RWKV 可以方便地循环用于推理解码,从而利用每个输出 token 仅依赖于最新状态的优势。
然后 RWKV 充当 RNN 解码器,在序列长度方面保持恒定速度和内存占用,从而更高效地处理更长的序列。相比之下,自注意力通常需要 KV 缓存相对于序列长度呈线性增长,这会导致效率下降,并随序列长度增加消耗更多内存和时间。
软件实现
RWKV 最初使用 PyTorch 深度学习库和自定义 CUDA 内核(它用于 WKV 计算)来实现。尽管 RWKV 是一个通用循环网络,但其当前的实现主要集中在语言建模任务(RWKV-LM)。该模型架构包含了一个嵌入层,为此研究者遵循第 4.7 节中的设置,并按照第 4.6 节中的原则依次应用几个相同的残差块,具体如上图 2 和 3 所示。
梯度稳定性和层堆叠
RWKV 架构被设计为 Transformer 和 RNN 的融合,与传统的 RNN 相比,Transformers 具有稳定梯度和更深层次架构的优势,同时推理效率高。
RWKV 模型具有用于更新类似注意力分数的单步过程,其中包括一个依赖于时间的 softmax 操作,该操作有助于数值稳定性并防止梯度消失(有关严格证明,请参见附录 F)。直观地说,此操作可确保梯度沿最相关的路径传播。Layer normalization (Ba et al., 2016) 是架构的另一个关键方面,它通过稳定梯度、解决梯度消失和爆炸问题来增强深度神经网络的训练动态。
利用时间结构进行时序数据处理
RWKV 通过三种机制的组合来捕获和传播时序信息:循环、时间衰减和 token shift。
RWKV 时间混合块中的循环是模型捕获序列元素之间复杂关系和随时间传播局部信息的能力的基础。
时间衰减机制(等式 14 中的 e^−w 和 e^u)保持了对序列元素之间位置关系的敏感性。通过逐渐减少以往信息随时间的影响,该模型保留了时间局部性和进展感,这对于时序处理至关重要。
token shift 或 time-shift 混合或(图 3 中的对角线箭头),也有助于模型适应时序数据。通过在当前输入和前一个时间步输入之间进行线性插值,模型自然地聚合和门控输入通道中的信息。
实验结果实验的重点是回答以下问题:
RQ1:在参数数量和训练 token 数量相等的情况下,RWKV 与二次 transformer 架构相比具有竞争力吗?RQ2:增加参数数量时,RWKV 是否仍然具有与二次 transformer 架构相竞争的能力?RQ3:当 RWKV 模型被训练用于开源二次 transformer 无法高效处理的上下文长度时,增加 RWKV 的参数是否能够获得更好的语言建模损失?首先是回答 RQ1 和 RQ2 问题,从图 4 可以看出,在六个基准测试中(Winogrande、PIQA、ARC-C、ARC-E、LAMBADA 和 SciQ),RWKV 与开源二次复杂度 transformer 模型 Pythia、OPT 和 BLOOM 具有相当的竞争力。RWKV 甚至在四个任务(PIQA、OBQA、ARC-E 和 COPA)中胜过了 Pythia 和 GPT-Neo。
对于 RQ3,图 5 显示,增加上下文长度会导致 Pile 上的测试损失降低,这表明 RWKV 能够有效利用较长的上下文信息。
标签:
上一篇 : 天天亮点!咨询(新湖南)的投稿事宜
下一篇 : 最后一页
新华社拉萨5月23日电(记者陈尚才、田金文)23日12时30分许,2023年珠峰科考13名登顶队员成功登顶地球之巅
05-24 10:08:47
1、T2982、山海关07:10起飞,11:23到达北京。全程4 22小时。路线点为山海关(起点)-GT秦皇岛-GT北
05-24 09:11:20
网格化管理是推进社会治理体系和治理能力现代化的基础性工程,也是一项服务群众的民生工程。5月23日,青春
05-24 08:21:01
经最高人民法院核准,5月23日湖北省孝感市中级人民法院、山东省潍坊市中级人民法院、河南省安阳市中级人民
05-24 07:19:50
5月23日北向资金增持505 41万股沪电股份。近5个交易日中,获北向资金增持的有3天,累计净增持592 33万股。
05-24 06:35:02
1、宁波瑞源生物科技有限公司是一家以生物高新技术为核心,集研发、生产、销售为一体的体外诊断试剂生产企
05-24 05:22:46
1、苦瓜的表皮是非常脆弱的,所以苦瓜再买回来的时候,小伙伴们建议是可以包裹一层纸或者包裹一下保鲜膜,
05-24 03:44:31
1、花印旗舰店是淘宝天猫目前直属销售旗舰店,店内所有货品都是由花印总公司直接供货出售的,和专柜产品有
05-24 01:48:31
组装厂引进了中国先进的铁路货车制造生产线
05-24 00:52:50
在塞尔达传说:王国之泪游戏中,《塞尔达传说王国之泪》摩罗恩克神庙弹飞之物过法攻略是游戏中十分重要的攻
05-24 00:17:22
台湾“妇女救援基金会”(以下简称“妇援会”)5月22日表示,该基金会已知的最后一位台湾“慰安妇”已于...
05-23 23:17:10
魏红杰与领航郭军在SS2比赛中5月22日,2023环塔(国际)拉力赛迎来了第二赛段(SS2柯坪赛段)的比赛,吉源
05-23 22:40:30
大家好,我3y啊。由于去重逻辑重构了几次,好多股东直呼看不懂,于是我今天再安排一波对代码的解析吧。aust
05-23 21:56:01
随着FossilGen6的问世,开始寻找一些可以戴在手表上的最佳表带是个好主意。Fossil已经非常清楚地表明,第
05-23 20:57:17
台海核电05月23日涨停收盘,股价上涨9 97%,收盘价为6 51元。该股于上午9:31:45涨停。截止15:00:31打开涨停
05-23 20:04:24
德州九达城市建设投资发展集团有限公司以4 01亿元的价格受让子公司银座集团德州商城有限公司的一处资产。
05-23 19:26:40
1、不同的手指佩戴戒指是有不同意义的,首先来看下戒指的戴法和意义 首先是左右手的问题,我们说一般戒指是
05-23 18:06:51
妈妈,可以给我讲故事吗?好的,宝贝,你想听什么故事呢?我想听……那个疯狂的船长,杀死白鲸的故事。...
05-23 17:36:29
1、昆虫纲的蚊子约有3300种和亚种。2、中国有15属33种和亚种。3、最重要的蚊媒疾病属于三个属:按蚊、库蚊
05-23 17:01:42
1、以PC端为例,网易云的账号注销方法:点击头像,点击关卡,点击头像,个人设置,绑定设置,跳出网页后滑
05-23 16:31:52
交易商品牌 产地交货地最新报价二乙基甲酰胺 含量:99 9%聊城芫泽化工产品有限公司德化化工山东省 聊城市2
05-23 15:37:14
分时图快速拉升意味此时存在大单买入,在大单的推动下,股价快速地上涨。截止发稿,诺禾致源(688315)涨幅
05-23 14:48:20
为了国防建设的需要,几十年来全军给水卫生工作者在改善部队饮水卫生方面做了大量的研究工作,并且取得了明
05-23 14:03:44
大美西安,喜迎盛会。5月18日至19日,中国-中亚峰会在陕西省西安市举行。西安市公安局以确保峰会绝对安全
05-23 13:40:14
1、《怒海潜龙》是阿里文学签约作者且听沧海所著的军事类小说。2、你的战场,是广阔陆地我的战场,是浩瀚海
05-23 12:13:54
IT之家5月23日消息,印象笔记发布EverPAPER墨水屏AI办公本,到手价2199元。EverPAPER采用10 3英寸屏幕,分辨
05-23 12:05:35
5月22日晚,@国泰航空发布声明:已知悉有关旅客在国泰航班CX987上的不愉快经历,对此深表歉意。国泰航空一
05-23 11:10:35
草船借箭赤壁之战以曹操失败,孙刘联军大获全胜告终,并由此形成三国鼎立之势。草船借箭的故事,我们都很熟
05-23 10:13:38
今天来聊聊关于河北职称评审代办机构,河北职称评审的文章,现在就为大家来简单介绍下河北职称评审代办机构
05-23 09:38:52
截至2023年5月22日收盘,泽宇智能(301179)报收于32 58元,上涨4 39%,换手率24 38%,成交量14 48万手,成交额4 78亿元。
05-23 09:12:46
情侣双双扮“女友”诈骗男子钱财
05-23 09:01:49
MONSTER魔声GT06真无线蓝牙耳机采用真无线设计,摆脱了传统有线耳机的束缚,为用户带来无线自由的体验。你
05-23 08:07:35
5月22日白酒板块较上一交易日上涨2 78%,泸州老窖领涨。当日上证指数报收于3296 47,上涨0 39%。深证成指报
05-23 06:15:05
5月22日是第二十三个国际生物多样性日,今年的主题是从协议到协力:复元生物多样性。
05-23 04:57:11
越南盾面值有几种这个很多人还不知道,现在让我们一起来看看吧!1、更新一下,之前的那个朋友的答案有点老了
05-23 02:01:23
遏制高价彩礼,中国各地纷纷制定彩礼最高限额标准,但计算方法往往未具体说明。今年以来,江西多地在贯彻落
05-22 23:17:48
海外网5月22日电据美国《国会山报》5月20日报道,美联社—NORC公共事务研究中心19日发布的最新民意调查显示
05-22 22:13:25
智通财经APP讯,矩子科技(300802 SZ)公告,公司股东王建勋、徐建宏合计减持公司股份190 60万股,占公司总股
05-22 21:29:47
其实呢,查看有几个人特别关心自己并不需要什么破解软件,跟着我来看看吧先搜索QQ空间,然后要点这个官网的
05-22 20:23:40
在木子看来马红俊的新模型确实不错,其他几人或多或少还有些问题,比如说奥斯卡的眼妆太娘、唐三的造型浮夸
05-22 19:51:10
5月22日桂林遭遇强降雨袭击,当地气象台于5时32分升级发布暴雨红色预警信号称,最近1小时,叠彩区、秀峰区
05-22 18:59:29
今年5月22日“国际生物多样性日”的主题是从协议到协力:复元生物多样性。为了培养青少年热爱大自然、保...
05-22 18:13:00
富氧机和制氧机,富氧机这个很多人还不知道,现在让我们一起来看看吧!1、富氧机制氧原理分很多种,先要弄清
05-22 17:46:38
今天来聊聊关于网上配眼镜哪个网站好些,网上配眼镜哪个网站好的文章,现在就为大家来简单介绍下网上配眼镜
05-22 17:17:12
迦南智能涨20 00%
05-22 16:48:59
今天来聊聊关于阉人歌手绝代妖姬,阉人歌手的文章,现在就为大家来简单介绍下阉人歌手绝代妖姬,阉人歌手,
05-22 16:02:38
很多朋友都喜欢在家里面养花,但由于条件有限,很多人家里面都是没有院子的,只能把花卉植物种在阳台或者室
05-22 15:39:58
为了解新员工思想动态,搭建交流沟通的平台,促进新员工快速成长,5月19日下午,鹤壁南部新城开发建设有限
05-22 15:08:41
作者丨张宇彤华商韬略出品死去的记忆,开始攻击所有人,ofo在美国“借尸还魂”了。背着40条限制消费令,...
05-22 14:24:04
俗话说春华秋实,一般农作物都是春天开花、秋天成熟收割。罗南长浜绿地养护负责人表示:“油菜籽这几天...
05-22 13:51:45
新华社拉萨5月23日电(记者陈尚才、田金文)23日12时30分许,2023年珠峰科考13名登顶队员成功登顶地球之巅
2023-05-24
1、T2982、山海关07:10起飞,11:23到达北京。全程4 22小时。路线点为山海关(起点)-GT秦皇岛-GT北
2023-05-24
网格化管理是推进社会治理体系和治理能力现代化的基础性工程,也是一项服务群众的民生工程。5月23日,青春
2023-05-24
经最高人民法院核准,5月23日湖北省孝感市中级人民法院、山东省潍坊市中级人民法院、河南省安阳市中级人民
2023-05-24
5月23日北向资金增持505 41万股沪电股份。近5个交易日中,获北向资金增持的有3天,累计净增持592 33万股。
2023-05-24
7月7日,中国消费者协会、中国保健协会化妆品发展工作委员会联合发布暑期消费指示,保障儿童用妆安全。...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
新华社华盛顿11月20日电 通讯:“留在中国的决定让我拥有一段值得讲述的人生”——留华美国学生韩...
上市公司频获机构调研 接待机构来访量为20.89万家
Copyright © 2015-2022 华东纤维网版权所有 备案号:京ICP备2022016840号-41 联系邮箱:2 913 236 @qq.com