基于情绪分析方向使用依赖信息加强注意力机制

原文题目: Using Dependency Information to Enhance AttentionMechanism for Aspect-based Sentiment Analysis

idea1:是否可以将情绪分析(分类)的研究应用到法条的选择中,通过其他算法将大概的案情相关法条缩减范围,通过情绪分析的方法将确定上述的几个法条是否可以在案情中使用.同理适用到其他对文本判定类别的应用之中.

本文是将attention机制应用到文本情绪分析中,即为ABSA.

aspect 指的是下文例子中的food和service等词,针对这些方面进行情感分析,可能是积极,消极,中立.

摘要：注意力机制已经被证实对ABSA（情绪分析）有效。最近出现许多研究针对于基于依赖关系实现注意力机制。然而，缺点在于依赖树必须先获得这棵树，而且存在受到误差传播的影响。因为发现注意力机制的计算是基于图去依赖分析，我们设计了一个基于多任务的新方法去转移对ABSA的依赖知识。分别针对ABSA训练了一个基于注意力的LSTM模型，针对依赖解析训练了一个基于图的模型.这个转移可以缓解因为训练数据不足造成的网络训练不足的问题.在semeval的2014餐馆笔记本一系列实验中表明我们的模型可以从依赖关系知识中获得可观的收益,并获得与具有复杂网络结构的最新模型相同的性能.

关键词:Aspect-based Sentiment Analysis, Multi-task Learning, DependencyParsing, Attention Mechanism

1.介绍

文本情感分析的重要性,在互联网时代,大量的自动评价应用是很有发展前景的.例子: For example, in the sentence“greatfood but the service was dreadful”, targets are food and service, and the correspondingsentiment polarities are positive and negative respectively.其中target是food和service.

attention机制对情感分析是很重要的,它可以强制模型去学习上下文文本与目标的关系.(存疑?).但是当句子很复杂,特别是当文本与目标之间差别巨大,传统的attention模型有能力限制.为了克服这个缺点,一些研究者用依赖关系去完整计算对长距离的特定的目标.在这些工作中,依赖树可以用于对传统机器学习模型和基于神经网络的模型提取关系特征,或建立递归神经网络方法中用于输入的特定递归结构.但是这些方法高度依赖于自动依赖解析器产生的输入依赖解析树,树可能有错误，因此遭受错误传播问题。
经过深层次的研究发现这个attention机制的计算实际上是基于图依赖分析的一部分.attention机制是去计算在句子中任何一个词与target之间的关系,当基于图依赖分析会计算出句子中任意两个词语之间的关系.所以从图依赖分析中获得的信息可以协助attention网络的训练!!! 在这篇论文中,我们以多任务学习的方式结合了一个基于attention的LSTM模型和一个基于图依赖分析的模型.我们通过一系列实验和对注意力机制改善的可视化演示了我们方法的有效性。

本文的主要贡献为:

第一个检测到注意力层计算是基于图的依赖分析的一部分的人。因此，联合学习与基于图的依赖关系解析可以帮助培训注意层.
2.我们提出了一种基于方面的情感分析的通用方法，该方法可以转移依赖性知识以获得更好的与方面相关的表示。该架构对所有基于LSTM的ABSA模型均有效
3.我们提出了一种有效的方法来增强注意力机制。它无需使用额外的依赖解析器即可传输依赖关系的知识。在预测阶段，可以节省大量的计算资源。

本文的其余部分的结构如下。第2节介绍了有关基于方面的情感分析的文献。提议的方法的总体设计在第3节中进行了描述。第4节介绍了实验设置和分析。最后，第5节介绍了结论和未来的工作。

2.相关工作

2.1 基于方面的情感分析

基于方面的情感分析在文献中经常被认为是分类问题.传统的方法是基于一系列人工定义的特征做研究,但是该结果十分依赖人工的标注是否正确.而且特征的标注是一件是十分耗费人力的工作.

后续的工作中在以后的工作中，方法像许多其他NLP任务一样变成了基于神经网络的方法。简而言之，其发展大致可分为三个阶段。最初，将任务建模为句子分类问题。假设某产品有怀疑，则ABSA任务实际上是一个3N分类问题，因为每个方面都与三个情感极性有关：积极，消极和中立。第二阶段是递归神经网络。提出了许多基于递归神经网络的树结构模型。在最近阶段，大多数作品都基于基于方面的句子表示的思想，该句子生成针对特定方面的句子表示。 Wang等采用这种想法，并利用注意力机制来产生这样的表示。德宏等设计了一个交互式注意力网络（IAN），它使用两个注意力网络对目标和上下文进行交互建模。唐等提出了一种名为“具有方面嵌入的门控卷积网络”的模型（GCAE），该模型使用方面信息通过CNN和门控机制控制句子的情感特征流。同样，黄等将目标的合并结果视为应用于句子的额外卷积核。也有研究者将ABSA任务视为一个问答问题，其中基于内存的网络起着主要作用.

2.2依赖性解析

*依赖性分析在情感分析中也被广泛使用*。大多数方法从依赖树中获得直接或简短的依赖特征，以捕获句子中单词之间的关系。 Xinbo等在计算注意力权重以捕获确定目标的远程信息时，将依赖项嵌入作为附加输入。铁二等将句子中每个依赖子树的情感极性视为隐藏变量。考虑隐藏变量之间的相互作用来计算整个句子的极性。 Soujanya等人通过允许情感基于输入情感的依存关系从一个概念流到另一个概念.更好地理解句子中每个概念的语境作用。但是它们都需要附加的依赖解析器，通常是斯坦福依赖解析器，并且受错误传播问题的影响。而且，其解析过程也消耗了大量的计算资源.

3 模型

本文提出一个多任务学习模型去传递依赖性的知识给基于aspect情感分析模型. 3.1中展示基于attention的LSTM模型,3.2中为基于图依赖分析模型,3.3中为最后的多任务学习模型.

3.1 基于attention的LSTM模型

对于基于aspect的情感分析模型任务,基于attention的LSTM模型已经被证明了是有用的.它建立了一个指向性的LSTM层提取输入文本中每个词的上下文表示.之后，应用注意层来计算每个单词对aspect的贡献并获得最终的aspect相关表示,情感极性最终由softmax层计算.(对此段还是存在问题)

输入句子中给出n个词语$W_{s1}$,$W_{s2}$,$W_{s3}$,……$W_{sn}$,和m个词组aspect为$W_{a1}$,$W_{a2}$,$W_{a3}$,……$W_{am}$,我们将每一个$W_{i}$词与嵌入向量e($W_{i}$)通过向量矩阵E一一对应起来.其中矩阵的横向量为单词总量,纵向量个数为词向量的维度.这些aspect的代表$e_{a_aspect}$是目标单词的词向量的平均值.(如下图中的第一个表达式)

LSTM层被用于提取每一个单词的上下文表示关系.每一个时间步的输出都是最后的表达.下公式中的V1V2等都是作为attention的输入
之后,一个attention层被用于计算每句子中一个词$w_{si}$针对aspect的权重$\alpha _{i}$.它的输出是所有文本特征的加权总和。(该输出即为图一中attention的唯一输出)

疑问? 图一中的H是指代这什么内容???
猜测:图一中的attention层分为两个其中H为encoder层,aspect embedding为decoder层??

在计算βi之前，我们将$e_{a_aspect}$乘以Wα。原因是具有一定含义的一个aspect在实际场景中可以有几种表达方式。以笔记本电脑为例，屏幕还可以表示为显示，分辨率和外观。因此，相似aspect的短语应被分组为一个方面。这里我们使用一个简单的全连接神经网络来实现方面短语分组.$f_{score}$是一个基于内容的功能，可以计算每个单词对目标意见的贡献。

最后，基于最终表示z，创建一个softmax层来预测概率分布的情感类别。
其中Ci表示当前样本的真实标号，Pi(Ci)表示P中真实标号的概率。

3.2 基于图依赖分析

图2基于图的依赖解析器的神经模型架构图,所有的MLP共享相同的参数。在获得所有可能的n（n-1）个arcs的分数之后，可以使用动态编程算法找到最高的得分树.

我们遵循基于圆弧因素的基于图的依赖解析器，其中一个树的分数是其所有head-modifier arcs（h，m）的总和。考虑到ABSA任务数据集仅是具有情感极性的注释（即是积极消极或者中立），我们只用词向量作为输入就可，CHEN已经证实了POS（词性）对于依赖分析更加有指导性.网络结构在图二中已经展示了.

对于基于图的依赖关系解析，获取LSTM层输出的过程与3.1节中说明的ABSA模型的过程相同。假设我们已经在公式2中获得了LSTM层的输出，则头部修改器arc score（h，m，s）的分数是通过一个简单的MLP层计算得出的.

在获得n（n-1）个可能弧的所有分数之后，找到最高得分的依存关系树成为最大化树空间Y（s）中生成树的问题。使用Eisner的解码算法（1996年）可以有效地解决这一问题。

最后的模型如下:

在训练该模型时，不像我们仅使用结构损失而不使用由弧形标签错误产生的损失，因为这会使模型更加复杂且难以训练。 换句话说，我们只预测解析树的结构，而忽略弧的特定类别。 结构损失是基于余量的目标，旨在最大程度地提高金树的分数与预测解析树的最高分数之间的余量：

3.3 多任务学习

图3 多任务学习模型的插图虚线的右边是基线模型。 FC代表完全连接的网络。

从用于attention计算的公式5与为了依赖分析的公式10中,我们可以看到attention机制仅仅是基于图依赖分析计算的一部分.
使用文章开始的英文例子“great food but the service was dread-ful”,基于图的依存关系分析计算出句子中任意两个单词之间的关系,而注意力机制仅计算目标单词“ food”与句子中任何其他单词之间的相关性。因此，依赖项语法中的信息可以帮助注意层的训练。

上述两句话就是前面两个模型的作用

我们建议将深度学习成功应用于依赖分析，以基于图的依赖分析模型进行联合学习。 两个模块共享一个单词嵌入层和一个LSTM层，而其他层则是特定于任务的。 最终模型的结构如图3所示。句子和Aspect共享相同的单词嵌入矩阵。总损失由以下公式计算：

需要去了解以下什么是依赖分析 dependence analysis???

其中λ是影响网络优化方向的超参数

4 实验

4.1数据集

对于ABSA任务，我们使用两个公共方面级别的注释数据集：SemEval 2014 Task4餐厅和笔记本电脑评论数据集。还提供了培训和测试集。表1给出了这两个数据集的完整统计信息。

对于基于图的依赖项解析任务，我们使用Penn TreeBank (PTB)[17]数据集的Stanford dependency conversion，使用与相同的训练/测试分割。这些数据来自1989年的《华尔街日报》。

4.2 实验设置

我们的模型是使用DyNet工具包[20]在python中实现的，用于神经网络训练。在我们所有的实验中，我们使用在8400亿个令牌的未标记数据上预训练的300维GloVe向量4 [22]来初始化嵌入层，而所有其他参数都是随机初始化的。单词嵌入矩阵中只包含频率最高的10,000个单词,其余的低频单词由代替. 所有参数均通过网络培训进行更新。对于公式12中的整体损失，经过一些尝试后，将λ设置为0.05。

为了最优化结果,使用衰减率和基础学习率设置为0.001的RMSProp优化器。上面未提及的其他参数设置为DyNet提供的默认值。

4.3 与现存的方法进行比较

为了权威地演示该模型的性能，我们将其与以下模型进行比较：

LSTM + ATT使用注意力机制从当前方面提取上下文表示，然后应用softmax层进行分类。

TD-LSTM在构建学习模型时整合了目标词和上下文词之间的联系。它使用两个LSTM网络捕获目标词及其上下文之间的联系，以生成目标相关表示。

ATAE-LSTM利用方面嵌入和词嵌入的串联作为LSTM层的输入，然后添加一个公共注意层以获得与方面有关的表示。 Wang等揭示了情感的情感极性也与所连接的方面有关。

MemNet是一种基于记忆网络的ABSA任务方法。它堆叠了一个多层注意模型，以获取每个上下文词对当前方面的情感极性判断的贡献。该模型不仅在速度上大大超过了基于LSTM的模型，而且还可以与基于最新功能的SVM系统相媲美。

DOC：MULT以多任务学习的方式从文档级情感分类中转移知识。它也基于LSTM + ATT。文档级别的标签数据相对容易在线访问，例如亚马逊评论。

GCAE是一个基于卷积神经网络和门控机制的模型。它在方面方面具有附加的卷积层。然后，目标的合并结果将作为额外的卷积过滤器应用于句子。

我们使用常用的准确性和macro-f1作为评估指标。结果示于表2。基于它们，我们有以下观察结果:

1–当与LSTM + ATT模型进行比较时，我们观察到依赖性知识非常有帮助。它为所有数据集中的指标均带来了巨大的改进。
2–DOC：MULT是另一种多任务学习方法。与没有多任务学习的模型相比，它也取得了很大的进步。但是，当整个句子的情感极性与各个方面的情感极性不一致时，该句子级别的情感信息将干扰对方面级别的情感极性的预测。在那种情况下，来自依赖弧的知识仍然可以帮助我们找到与各方面相对应的情感词。因此，基于图的依赖关系分析的多任务学习可以实现更好的性能。
3–作为一种多任务学习方法，DOC：MULT和DP：MULT都极大地提高了LSTM + ATT模型的性能，这也反映了一个事实，即数据稀缺。当前数据不足以训练非常有效的基于神经网络的模型。
4–当我们分析表3中所示的测试结果的混淆矩阵时，我们发现类别之间的样本不平衡也给网络培训带来了困难。中立类别的召回率远低于其他两个类别。一方面，这是由于中性样本自身的歧义所致。另一方面，中性样本太少使模型很难学习与中性有关的模式。

4.4 attention权重的可视化

在本节中，我们从数据集中选择一些测试样本并可视化它们的注意权重。通过与没有多任务学习的模型结果进行比较，我们可以确认依赖信息是否发挥了应有的作用。结果如图4所示。选择的样本都在多方面提出了意见相反的情感极性，这不能用句子级情感分析方法正确地进行分析。主要观察如下：

–我们的模型可以更准确地定位与方面相关的情感词4（b）。即使评论对包含多个情感词的多个方面进行了评论，该模型仍然可以找到针对特定方面的那些相关情感词。

–在我们的模型4（a）中，与方面相关的情感词的权重更高。这可以使关注层获得的与方面有关的表示包含更多的情感信息

–同时，当对不同方面的看法不同时，我们的模型将赋予对比连接更大的权重，例如图4（a）和4（b）中的“ but”。当不同方面的情感倾向完全相反时，这种现象尤其明显。这些词包含丰富的依赖性信息，可以为注意机制带来极大的好处

这些现象都表明我们的模型具有更好的注意力表现，并证实依赖知识对注意力机制非常有帮助。该知识有助于模型获得更好的与方面有关的表示，并最终改善总体性能.

5 结论

在本文中，我们提出了一种基于多任务学习策略的基于方面的情感分析的新方法。据我们所知，我们是第一个检测注意力机制和基于图的依存关系分析之间的关系的人。我们使用依赖知识来增强关注层的性能，然后提高整体性能。我们已经证明了我们提出的方法的有效性，并可视化了注意层的改进。我们的方法也具有一定的通用性。它可以应用于其他基于LSTM的ABSA模型，以进一步提高其性能。将来，我们将寻找更有效的方法来转移对ABSA任务的依赖性知识，并将更加关注中性注释的识别。

Henry ’Blog

<论文>基于情绪分析方向使用依赖信息加强注意力机制