塞进裤子ヾ(≧O≦)〃嗷~

0%

MKRL:Knowledge representation learning with entity descriptions, hierarchical types, and textual relations笔记

提出(multi-source knowledge representation learning)MKRL
对于entity description:使用CNN来获取representation;
对于hierachical type:使用weighted hierarchy encoders(WHEs)来构造hierarchical type的投影矩阵;
对于textual relations:首先被表示成lexicalized dependency paths,一个基于位置的CNN被用来embed句子的句法结构;随后,为解决远程监督带来的wrong label问题,使用句子级别的attention机制来减少noisy instances权重并提高重要句子的权重,以获取representation;

DKRL和TKRL只分别考虑了entity description和hierachical type信息,而没有考虑textual information of relations。
(A textual relation is a sentence that includes the corresponding entity pair. )

4 MKRL model

整体的energy function
$E=E_S+E_D+E_{TM}+E_T$
其中,$E_S$是structure-based表示的能量函数,与TransE的函数一样。
$E_D$与DKRL论文差不多,$E_D=E_{DD}+E_{DS}+E_{SD}$
其中,$E_{DD}=||h_d+r_s-t_d||$,$E_{DS}=||h_d+r_s-t_s||$,$E_{SD}=||h_s+r_s-t_d||$.
$E_{DD}$定义了头实体和尾实体都用description-based表示;
$E_{DS}$定义了头实体用description-based表示,尾实体用structure-based表示;
$E_{SD}$定义了头实体用structure-based表示,尾实体用description-based表示。
所有description-based表示使用entity description encoder构建,而structure-based表示$h_s,t_s,r_s$从TransE学习而来。
$E_{TM}$是textual relation表示,$E_{TM}=h_s+r_{text}-t_s$.
其中,$r_{text}$是使用textual relation encoder构建的relation的textual representation。
$E_T$是hierachical type representation,$E_T=h_t+r_s-t_t$.
其中,$h_t,r_t$是使用hierachical type projection构建的头、尾实体的hierachical type representation。

4.2 Entity description encoder

借鉴DKRL,使用word2vec得到的entity description的word-embedding作为CNN的输入

4.3Textual relation encoder

首先被表示成lexicalized dependency paths,一个基于位置的CNN被用来embed句子的句法结构;随后,为解决远程监督带来的wrong label问题,使用句子级别的attention机制来减少noisy instances权重并提高重要句子的权重,以获取representation;

  • 4.3.1lexicalized dependency path:

  • 4.3.2position-based CNN
    lexicalized dependency path被表示成word embedding matrix:
    $A=(x_1,x_2,…,x_n)$
    其中,n是lexicalized dependency path中word的数量,$x_i$是固定维度的word embedding.
    为衡量a word与head、tail entity有多近,position embedding B
    $ B=( (x_{1h},x_{1t}),(x_{2h},x_{2t}),…,(x_{nh},x_{nt}) ) $
    其中,x_{1h}表示第一个单词与head entity的相对距离,x_{1t}表示第一个单词与tail entity的相对距离。如“Trump is the president of America”,单词president与头实体Trump距离为3,与尾实体America距离为2.
    随后,a concatenated embedding matrix including the word embeddings and position embeddings of all words is represented as follows:
    $v=( (x_1,x_{1h},x_{1t}),(x_2,x_{2h},x_{2t}),…,(x_n,x_{nh},x_{nt}) ) $
    并输入到卷积层.

  • 4.3.3sentence-level attention mechanism
    lexicalized dependency path和CNN表示的是单一句子,然而,许多实体对有多个句子,如何决定哪个句子更好的表示了它们的relation:作者 使用sentence-level attention mechanism来联合所有句子,
    $ att_i=\frac{exp(e_i)}{\sum_{k} exp(e_k) }$
    其中,$e_i$是score function衡量input sentence$x_i$ 与predict relation $r$ 有多match
    $e_i=x_iAr$,其中,$A$是weighted diagonal matrix ,$r$是structure-based representation of relation,$x_i$是由上述提到的CNN得到的一个句子的表示。

一个句子的表示与其相应的structure-baed representation的relation越相似,这个句子越重要。
textual relation representation $r_{text}$为
$$ r_{text}=\sum_{i=1}^{n} \frac{att_i * x_i}{\sum_{j}^{n} att_j} $$

4.4 hierachical type projection

使用$z={z^{(1)},z^{(2)},…,z^{(nl)}}$表示hierachical type,其中$nl$表示hierachical tyoe layer的数量,$z^{(1)}$表示第一层,$z^{(nl)}$表示最后一层。
借鉴TKRL的WHE模型为每个hierachical tyoe $z$构建投影矩阵$M_z$, $M_z$学习所有type的投影矩阵的加权和
$M_z=\sum_{i=1}^{nl} \alpha_{i} M_{z^{(i)}}$
其中,$ M_{z^{(i)}}$和$\alpha_{i}$分别表示$z^{i}$层的投影矩阵和其权重。
每层的权重定义如下:
$\alpha_{i}:\alpha_{i+1} = \beta : (1-\beta), \sum_{i=1}^j \alpha_i =1$
其中,$\beta$是descending weight,$\beta \in (0.5,1)$
在WHE中,specifc layers have higher weights
一个实体在不同relation下游不同的representation,为更好的构造头尾实体的投影矩阵,考虑到relation-specific type 限制,这可以给头尾实体提供可能的hierachical type。如下图,对于entity parir Jane和《傲慢与偏见》,specific relation是the author of,hierachical type book/author和book/written bookare头实体Jane和尾实体《傲慢与偏见》分别可能的hierachical type

头实体的投影矩阵$M_{rh}$定义为
$M_{rh} = \sum_{z_i \in z_{hr} \bigcap z_h}$
其中,$z_{hr}$是头实体的relation-specific type的集合(hang这里不理解啊),$z_h$是头实体type的集合。
同理,尾实体的投影矩阵$M_{rt}$定义为
$M_{rt} = \sum_{z_i \in z_{hr} \bigcap z_t}$
hierachical type representation of 头实体、尾实体分别表示为 $h_t = M_{rh}h_s$,$t_t = M_{rt}h_s$

整体目标函数为

if help:小手一抖点个广告 or 大手一挥资助一下