|
步地提出了两项创新使其在实际运行时间内也能保持高效。 首先与在常规训练中对-序列采取梯度步进以实现更好的并行性类似他们也在中使用了-的k。 其次研究人员为每个 -内的操作开发了一种对偶形式以更好地利用现代和。这种对偶形式的输出与原始实现相当但训练速度却快了倍以上。 正如图所示-在k上下文中比更快并且与相当。 杀手—— 如图所示所有的序列建模层都可以从将历史上下文存储到隐藏状态的角度来看待。 比如层——如、K和层——将上下文压缩成一个固定大小的状态这个状态随时间变化。 这种压缩带来了两种结果:优势是处理效率高因为每个k的处理时间是恒定的。劣势是在处理长上下文时性能受限于隐藏状态的「表达能力」。
自注意力机制(-)也可以从如上角度来理解。 不同(K)缓存是一个随增长 WhatsApp 号码 的线性。 它可以存储所有的上下文并且不会进行压缩具有很好的表达能力不过其处理时间随上下文长度线性增长。 因此为了在长上下文中既保持效率又具有表达能力需要一个更好的“压缩启发式”( )方法。 具体来说就需要将数百万个k压缩成一个能有效捕捉其底层结构和关系的隐藏状态。 . 隐藏状态 研究人员的关键思想是使用自监督学习来将历史上下文,…,压缩成一个隐藏状态。 方法是将上下文视为一个无标签数据集而将状态视为一个模型。 具体来说隐藏状态现在等同于一个模型的权重这个模型可以是线性模型、小型神经网络或其他任何形式。输出规则简单地表示为: 直观来讲输出k就是由更新后权重的模型对所做的预测。更新规则是在某个自监督损失ℓ上进行的一步梯度下降: 其中学习率为η。从压缩的角度来看每种启发式方法都需要决定记住忘记哪些输入。会记住那些产生大梯度的输入——直观地说就是那些使学习很多的输入。 ℓ的一种选择是重构本身。为了使学习问题变得非平凡作者首先将处理成一个被破坏的输入然后优化: 类似于去噪自编码器需要发现各维度之间的相关性以便从部分信息中重构出。 如图所示梯度下降能够减少ℓ但无法将其降至零。 与其他层和自注意力机制一样研究人
[url=https://wsdatab.com/whatsapp-number][/url]
员将输入序列,…,映射到输出序列,…,的算法可以被编程到序列建模层的前向传播中使用上述的隐藏状态、更新规则和输出规则。 即使在测试时新层仍然为每个输入序列训练一个不同的权重序列,…,。 因此研究人员将其称之为测试-时间训练层。 . 使用层训练神经网络 层的前向传播也有相应的后向传播。 层与层、自注意力机制有着相同的接口因此可以在任何更大的神经网络架构中替换它们。 值得一提的是训练带有层神经网络的方式与训练任何其他模型相同。 可以使用相同的数据、方法和目标(如下一个k预测)来优化网络其余部分的参数。 在此研究人员将训练更大的神经网络称为外循环( )而在每个层内训练称为内循环( )。 它们之间梯度计算的区别是内循环针对的是(即模型的参数)外循环针对的是网络其余部分的参数θ。 . 学习自监督任务 可以说最重要的部分是自监督任务因为它决定了从测试序列中学习的特征类型。 在这个任务的设计上研究人员采取了更加端到端的方法——直接优化自监督任务以实现下一个k预测的最终目标。 具体来说研究者将自监督任务的学习作为外循环的一部分。 从如上公式中的简单重构任务开始添加了一些外循环参数来让这个任务可学习。最新的自监督损失是: 在内循环中只有被优化因此作为ℓ的参数写出;θ们是这个损失函数的“超参数”。在外循环中θK,θ,θ与θ一起被优化而仅仅是一个隐藏状态不是参数。 图用代码说明了这种区别其中θK和θ被实现为层的参数类似于自注意力中的K参数。 总的来说θK,θ,θ所有可能的选择构成了一系列多视图重构任务外循环可以被理解为从这个任务组中选择一个具体任务。为了
|
本帖子中包含更多資源
您需要 登錄 才可以下載或查看,沒有帳號?立即註冊
x
|