发明内容
本发明提供一种基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法,该方法实现自动提取句子特征。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法,包括以下步骤:
S1:对于给定的关系抽取数据集;
S2:在输入层将输入句子中的每个单词转化为一个词向量和两个相对位置向量的拼接,得到整个句子的语义向量表示为S;
S3:在卷积池化层使用多个尺寸的卷积核提取特征,得到卷积池化特征P;
S4:根据卷积池化层的输出,使用注意力机制对上一层提取的特征P进行操作;
S5:通过全连接层将上一层获得的句子编码向量r*转化为各类关系的得分s,并用softmax层得到各个关系的条件概率p(yi|S),通过取最大条件概率的关系作为预测值y*。
进一步地,所述步骤S1的具体过程是:首先在输入层将输入句子中的每个单词转化为一个词向量和两个相对位置向量的拼接,得到整个句子的语义向量表示为S,接着,将S输入到卷积层,在卷积池化层使用多个尺寸的卷积核提取特征,并作最大池化,得到卷积池化特征P,然后,使用注意力机制对上一层提取的特征P进行操作,得到处理后的句子编码向量r*,最后,将上一层获得的句子编码向量r*,输入一个全连接层来计算一个得分s,并使用softmax层来预测出文本中两个实体的关系。
进一步地,所述步骤S2中:所述的句子的语义向量S的编码过程如下:
假设输入的文本为一个长度为k的句子s,让s=[v
1,v
2,…,v
e1,…,v
e2,…,v
k],v
i代表句子中第i个单词,v
e1和v
e2是句子s中的两个标记实体。首先,把句子s中的每个词都转化为一个m
v维的词嵌入表示向量形式,把第i个单词v
i对应的词嵌入表示向量记为
接着,我们分别计算句子中的每个单词v
i和两个命名实体之间的相对距离p
i′和p
i″并把他们映射成两个m
d维的相对位置向量
最后,对于第i个单词,将词嵌入表示向量
以及两个相对位置向量
拼接成该词最终的语义向量f
i,记为
其中f
i的维度为(m
v+2m
d),类似地,可以得到整个句子的语义向量表示为S=[f
1,f
2,…,f
k]。
进一步地,所述步骤S3中:所述卷积池化特征P特征的计算过程如下:
在输入表示层之后,原来的文本内容被转化成为语义向量表示为S=[f1,f2,…,fk],接下来,为了得到句子的高阶的语义特征信息,本发明引入了Ns*Nf个卷积核来对语义向量S进行特征提取,得到高阶语义特征oji,oji的计算如下:
oji=σ(Wji·S) (1)
其中σ是一个激活函数,N
s表示卷积核尺寸的种类数,N
f表示卷积核个数,W
ji表示第j种尺寸的第i个卷积核,依据(1),可以得到第j种尺寸的卷积核提取出来的高阶语义特征为
使用最大池化方法对高阶语义特征O
j进行过滤,可以得到第j种尺寸卷积核提取的池化特征p
j,即:
pj=max(Oj) (2)
由于总共有N
s种不同尺寸卷积核,因此该层最终得到N
s种不同尺寸卷积核输出的池化特征,记为
进一步地,所述步骤S4中使用注意力机制对上一层提取的特征P进行操作过程是:首先,使用tanh激活函数对不同尺寸的卷积核输出特征P进行映射,使其成为T;然后利用T计算权重α;最终通过加权求和的方法得到用关系推断的句子编码向量r*:
T=tanh(P) (3)
r*=tanh(r) (6)
其中,w是一个训练的参数,而参数α,r,w的向量维度大小分别为Nf,Ns和NfNs。
进一步地,通过全连接层将上一层获得的句子编码向量r*转化为各类关系的得分s,并用softmax层得到各个关系的条件概率p(yi|S),通过取最大条件概率的关系作为预测值y*,具体公式如下:
s=Cxr* (7)
p(yi|S)=softmax(s) (8)
y*=arg max p(yi|S) (9)。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明提出基于卷积窗口尺寸注意力机制的卷积神经网络,在关系分类任务上相比于核方法和特征方法,能够实现自动提取特征,并且可以避免繁杂的特征工程以及相应的误差传播缺点;
(2)本发明提出基于卷积窗口尺寸注意力机制的卷积神经网络,可以有效地关注句子中对关系分类最重要的n-gram信息,提高分类目标的准确率;
(3)本发明采用的基于卷积窗口尺寸注意力机制的卷积神经网络,与基于RNN和词嵌入注意力的神经网络相比,具有相对较低的复杂度,运行速度快的优点。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,本申请提出一种基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法,其整体的网络结构主要分为输入层,卷积池化层,多窗口尺寸注意力层以及全连接层。首先,将输入句子中的每个单词转化为一个词向量和两个相对位置向量。接着,在卷积层使用多个尺寸的卷积核提取特征,并对卷积层的输出作最大池化操作。然后,使用注意力机制提取对于预测最重要的n-gram信息。最后,用一个全连接层结合soft-max层来预测出文本中两个实体的关系。
1、输入表示层
该层主要将文本中的每个词映射成编码的语义向量序列。其中每个词的语义向量序列是由该词的词嵌入表示向量以及两个相对位置向量拼接而成的。
假设给定一个长度为k的句子s,让s=[v1,v1,…,ve1,…,ve2,…,vk],vi代表句子中第i个单词,ve1和ve2是句子s中的两个标记实体。
首先,预训练好的词嵌入表示集Q,这个词嵌入表示集包含文本内容中所有单词的词嵌入表示向量。这样,通过查询词嵌入表示集Q,可以把句子s中的每个词都转化为一个m
v维的词嵌入表示向量形式。我们把第i个单词v
i对应的词嵌入表示向量记为
接着,我们分别计算单词vi和两个命名实体之间的相对距离pi′和pi″。同样地,我们预定义好一个位置信息嵌入表示集,然后根据这个位置信息嵌入表示集将pi′和pi″映射成两个md维的相对位置向量。
最后,对于第i个单词,将词嵌入表示向量
以及两个相对位置向量
拼接成该词最终的语义向量f
i。记为
其中f
i的维度为(m
v+2m
d)。类似地,可以得到整个句子的语义向量表示为S=[f
1,f
2,…,f
k]。
2、卷积池化层
在输入表示层之后,原来的文本内容被转化成为语义向量表示为S=[f1,f2,…,fk]。接下来,为了得到句子的高阶的语义特征信息,本发明引入了多种窗口尺寸的卷积核来对语义向量S进行特征提取。假设共有Ns种尺寸的卷积核,每种尺寸的卷积核共有Nf个。
可以用Wji来表示第j种尺寸的第i个卷积核,利用卷积核Wji对语义向量S进行特征提取,可以得到高阶语义特征oji,oji的计算如下:
oji=σ(Wji·S) (1)
其中σ是一个激活函数。依据(1),可以得到第j种尺寸的卷积核提取出来的高阶语义特征为
使用最大池化方法对高阶语义特征O
j进行更一步筛选,可以得到第j种尺寸卷积核提取的池化特征p
j,即:
pj=max(Oj) (2)
由于总共有N
s种不同尺寸卷积核,因此该层最终得到N
s种不同尺寸卷积核输出的池化特征,记为
3、基于多窗口尺寸的卷积核注意力机制
在卷积池化层之后,我们得到了Ns种不同尺寸卷积核输出的池化特征P。为了捕捉对关系预测最关键的n-gram信息,本发明在网络中加入了注意力机制。首先,使用tanh激活函数对不同尺寸的卷积核输出特征P进行映射,使其成为T;然后利用T计算权重α;最终通过加权求和的方法得到用关系推断的句子编码向量r*。具体如下:
T=tanh (P) (3)
r*= tanh(r) (6)
其中,w是一个训练的参数,而参数α,r,w的向量维度大小分别为Nf,Ns和NfNs。
4、关系推断
在关系推断部分,本发明将上一层获得的句子编码向量r*,输入一个全连接层来计算一个得分s,并用softmax层得到各个关系的条件概率p(yi|S)。最终,通过取最大条件概率的关系作为预测值y*。具体公式如下:
s =Cx r* (7)
p(yi|S)=softmax(s) (8)
y*= argmax p(yi|S) (9)
5、模型学习
在模型学习阶段,本发明采用的对数极大似然损失作为目标函数,为了抑制模型的过拟合,本发明添加了L2正则化项,其公式可以表示为:
其中β表示L2正则化参数,w代表权重参数,p(yi|S,w)代表在句子S的条件下预测为yi的概率。本发明使用Adam优化算法解决随机最大化问题,并在全连接层采用dropout方法减少过拟合问题。
图1为基于卷积窗口尺寸注意力机制的卷积神经网络的总体框图,本发明提出的基于多卷积窗尺寸注意力的卷积神经网络进行实体关系抽取的方法,其整体的网络结构主要分为输入层,卷积池化层,多窗口尺寸注意力层以及全连接层。首先,在输入层,输入句子中的每个单词被转化为一个词向量和相对位置向量,将两个向量拼接成一个原始输入的句子表示。接着,在卷积层使用多个尺寸的卷积核分别捕捉句子的n-gram信息,并对卷积层的输出作最大池化操作。然后,使用注意力机制提取对于预测最重要的n-gram信息,得到一个特征表示向量。最后,用一个全连接层结合soft-max层来计算每一个关系的条件概率。
表1是关系抽取任务各网络性能对比表,实验数据集为semeval 2010关系抽取任务数据集,模型的性能度量采用F1值,即查准率与查全率的调和平均指标。从实验结果可以看出,基于卷积窗口尺寸注意力机制的卷积神经网络在关系抽取任务上的表现优于传统的支持向量机、双向RNN网络和卷积神经网络等模型。
表1关系抽取任务各网络性能对比表
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。