博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记_Pay Attention to MLPs
阅读量:4289 次
发布时间:2019-05-27

本文共 3251 字,大约阅读时间需要 10 分钟。

在这里插入图片描述

作者:韩

单位:燕山大学



目录

一、前言

  Transformers已成为深度学习中最重要的架构创新之一,并在过去几年中实现了许多突破。我们知道Transformer是完全依赖于注意力机制实现的模型,不只是Transformer,在NLP领域中我们所熟知的模型如,BERT、GPT、T5等等,在这些模型中注意力机制都发挥着巨大的作用。今天笔者无意间在CVPR中看到了一篇很有意思的论文,论文中作者提出了一个简单的,无需注意力的网络体系结构gMLP,该体系结构仅基于带有gating的MLP,并以实验证明了它在语言和视觉应用中的性能可与Transformer媲美。

二、概述

  Transformer体系结构结合了两个重要的概念:

   (1) Transformer是一个无重复的体系结构,它放弃了原本RNN的循环计算模式,并行计算每个单独token的表示,不但加强了模型对长距离依赖关系的抓取能力,同时也加快了模型的计算速度。

   (2)多头自注意块,它聚集了多个token之间的空间信息。一方面,注意机制引入了诱导偏差,模型可以基于输入动态表征参数;另一方面,众所周知,使用静态参数化的MLP可以表示任意函数。因此,对于我们来说Transformer模型中注意力机制是否为必备的,亦或是否存在能够代替注意力机制的方法,都是需要不断研究的问题。

  论文中研究了Transformer模型在语言和视觉应用中self-attention模块的必要性,提出了一种无注意力的、基于MLP的Transformer替代方案,包括通道投影、空间投影和门控(图1),并命名为gMLP。

图1

   论文中将gMLP应用于Masked Language Modeling(MLM)中的BERT模型,并发现它在减少训练前的模型困惑度方面与Transformer一样好。实验表明,困惑度只与模型能力相关,而对注意力的存在不敏感。随着模型架构的增大,观察到gMLP预训练和微调指标的改善速度与Transformer一样快。这就表明了,尽管缺乏self-attention,但gMLP与Transformer在性能上相差无几。按照原始BERT的标准训练设置,论文所提的MLP-like模型在MNLI上达到86.4%的准确率,在SQuAD v1.1上达到89.5%的F1准确率。

   因此gMLPs的有效性,在自然语言处理中依赖注意力建模的模型也能够通过MLP来达到相同的效果。总的来说,论文的结果表明,self-attention不是扩大机器学习模型的必要因素。随着数据和计算的增加,具有简单空间交互机制的模型(如gMLP)可以像Transformer一样强大,在模型中分配给self-attention的部分可以被移除或大幅减少。

三、模型

  gMLP结构由一堆大小和结构相同的L块组成。设X 为序列长度为n、维数大小为d的token表示,每个块的定义为:

  其中σ是激活函数,U和V定义了沿通道尺寸的线性变换与Transformer中FFNs的变换相同。上述设计中的一个关键成分是函数S,这是一个捕捉空间相互作用的层。当S是一个token映射时,上述转换退化为一个常规的FFN变换,其中各个token被独立处理,没有任何跨token的通信,与Transformer不同,模型不需要位置嵌入,因为这些信息将在S(.)中捕获。论文中所提模型使用与BERT(用于NLP)和ViT(用于视觉)完全相同的输入和输出格式。例如,当对语言任务进行微调时,我们将多个片段连接在一起,然后进行填充,预测是从保留< CLS >符号的最后一层表示中推导出来的。

3.1 Spatial Gating Unit

  为了实现跨token交互,各层必须包含空间维度上的收缩操作。最简单的选择是线性投影:

  其中W是一个矩阵,其大小与序列长度相同,n和b是一个偏置项,可以是矩阵,也可以是标量。

   为了训练的稳定性,我们发现将W初始化为接近零值,将b初始化为1。

   同时,对于门控功能和乘法旁路,沿通道维度将Z分成两个独立部分( Z 1 Z_1 Z1 Z 2 Z_2 Z2)是有效的,这在GLUs中是典型的做法:

四、Masked Language Modeling with BERT

  在这里,我们对Masked Language Modeling(MLM)任务进行了实证研究。预处理和微调的输入/输出格式遵循BERT 。与Transformer模型不同,我们不使用位置编码。我们还发现,在微调期间,没有必要屏蔽gMLP块中的< pad >标记,因为模型可以很快学会忽略它们。对于MLM任务,移位不变性是一个期望的属性,因为输入序列的任何偏移都不应该影响时隙填充结果。这个性质意味着托普利兹空间权重矩阵。我们在MLM实验中采用了这个约束,因为它减少了模型参数,经验上对质量或效率的影响可以忽略不计。

4.1 Ablation: The Importance of Gating in gMLP for BERT’s Pretraining

  在下面的表格中,我们建立了消融研究的基线。其中包括:

    1.具有Transformer架构和可学习绝对位置嵌入的BERT。

    2.具有Transformer架构和T5风格可学习的相对位置偏差的BERT。

    3.同上,但我们删除了softmax中所有与内容相关的术语,只保留了相对位置偏差。

  我们将这些基线与表中类似大小的几个模型进行了比较。首先,SGU在困惑方面胜过其他模型。其次,值得注意的是,SGU的gMLP也达到了与Transformer相当的困惑度。

4.2 Case Study: The Behavior of gMLP as Model Size Increases

  在下表中,我们研究了Transformer和gMLP架构增长时的比例特性。具体来说,我们将这些模型的深度按{0.5,1,2,4}倍进行缩放,并在验证集上报告它们的预处理MLM困惑,以及在GLUE中两个任务的开发集上的微调结果。

4.3 Ablation: The Usefulness of Tiny Attention in BERT’s Finetuning

  到目前为止,我们已经发现,self-attention并不是实现强大MLM困惑度或可扩展性所必需的组件。与此同时,我们还确定了NLP微调任务,其中gMLPs传输不如Transformer好。为了消除注意力的影响,我们用一个混合模型进行实验,其中一个微小的self-attention块被附加到gMLP的门控功能上。由于gMLP本身已经能够捕捉空间关系,我们假设这个额外的注意力模块不必很重,它的存在比它的容量更相关。在我们的实验中,一个典型的微小注意力模块只有一个尺寸为64的单头,明显小于Transformer中典型的12头、总尺寸为768的多头注意力模块。

五、总结

  论文中的工作深入研究了注意力机制在模型设计中的作用,由实验结果可知我们并不需要太多的注意力模块。实验证明了gMLPs,一个简单的MLPs变体,在BERT预处理困惑度和ViT的准确性方面可以与Transformer竞争。在增加数据和计算的可扩展性方面,也可与Transformer相媲美。至于BERT微调,我们发现gMLPs可以在没有self-attention的情况下在具有挑战性的任务上取得吸引人的结果,例如SQuAD,并且在某些情况下可以显著优于Transformer。我们还发现,Transformer多头自我注意中的归纳偏差对需要跨句对齐的下游任务很有用。在有些情况下,将gMLP设计成更大的架构可以缩小与Transformer的差距,并且在gMLPs中融入一点点注意力,可以实现更好的架构,而不需要增加模型大小。

转载地址:http://jhmgi.baihongyu.com/

你可能感兴趣的文章
运动减肥篇
查看>>
自己测到的Buu IP
查看>>
yum配置与使用(很详细)
查看>>
yum的使用
查看>>
./configure 的配置和用法
查看>>
web.config
查看>>
web.xml
查看>>
web.xml(简介介绍)
查看>>
asp.net控件
查看>>
Java 面试题
查看>>
Java 代码安全(Coding Safe)
查看>>
正则表达式
查看>>
常用正则表达式大全
查看>>
JDK1.5(jdk5.0)新特性
查看>>
JDK1.6(jdk6.0)新特性
查看>>
java中的集合存储结构
查看>>
java中的集合存储结构
查看>>
Java基础——对象和类,类中的变量和方法
查看>>
谈谈JDBC
查看>>
jdbc_API中的说明
查看>>