塞进裤子ヾ(≧O≦)〃嗷~

0%

PTransE:Modeling Relation Paths for Representation Learning of Knowledge Bases笔记

创新:考虑了关系路径信息增强知识表示学习

Introduction

TransE 及其扩展模型往往只考虑了实体之间的直接关系,但事实上,知识图谱中的实体之间的多步关系路径也蕴含了丰富的语义信息。

比如(小明,出生地,山东),(山东,位于,中国)隐含了实体小明和实体中国之间的nationalaity关系。

为突破现有 TransE 等模型孤立学习每个三元组的局限性,考虑关系路径的知识表示学习方法,以 TransE 作为基础进行扩展,提出 Path-based TransE(PTransE)模型,将知识图谱中的关系路径融入到知识表示学习模型中。

mark

PTransE模型的两个主要挑战

1是关系路径置信度

并不是所有的关系路径都是可靠且对知识表示学习是有意义的。比如(小明,朋友,小刚)(小刚,职业,医生)。事实上这条路径并没有反映头实体 h 和尾实体 t 之间的语义关系。一个人的职业可能跟他的朋友的职业完全无关。因此,我们的模型可能不能直接考虑所有的路径。

2是关系路径的表示

为了在知识表示学习模型中考虑关系路径,我们需要将关系路径同样表示为低维稠密向量。也就是说 PTransE 模型需要建立关系路径的向量表示,参与从头实体到尾实体的关系推理过程。这是典型的组合语义问题,需要对路径上所有关系的向量进行语义组合产生路径向量。

our model

PTtransE对每个三元组,能量函数为

$$G(h,r,t) = E(h,r,t) + E(h,P,t) $$

$E(h,r,t) = $ ||h+r-t||与TransE模型一样

$E(h,P,t) = \frac{1}{Z}\sum_{p \in P(h,t)}R(p|h,t)E(h,p,t)$

其中,p是关系路径,$R(p|h,t)$表示实体对(h,t)之间的关系路径p的可靠性。

$Z=\sum_{p \in P(h,t)}R(p|h,t)$是归一化因子,$E(h,p,t)$表示关系路径下实体对的能量。

2.2 关系路径的置信度

对于关系路径的置信度,提出基于路径约束的资源分配算法PCRA,其基本思想是:假设存在一定数量的资源,从头部实体 h 流出,且将沿着给定路径 p 流动,用最终流向尾部实体 t 的资源数量来衡量路径 p 作为 h 和 t 之间连接路径的可靠性。

流向实体m的资源被定义为:

mark

举个例子

mark

尾实体获得的资源大小代表了其可以从头实体获取到的信息大小。使用尾实体资源$R_p(t)$来衡量路径p对实体(h,t)的置信度,即$R(p|h,t) = R_p(t)$

2.3 关系路径的表示

mark

关系路径的语义很大程度上依赖于它所涉及的关系。因此,通过路径上涉及的所有关系的表示的语义组合来构建路径表示是合理的。如图所示,路径表示p 由 BorninCity,CityInState 和 StateInCountry 的表示组合而成。

具体来说,对于一个关系路径$ p = (r1, . . .,rl)$,我们定义一个语义组合操作 ◦
并获得关系路径表示$ p = r1 ◦ . . . ◦ rl$。我们尝试了三种不同的方法得到关系路径的
表示:相加,相乘,循环神经网络。

对于一个多步关系路径三元组 (h, p, t),我们可以简单参考 TransE 的来定义其
能量函数:$E(h, p, t) = ||h + p − t||$

$E(h,p,t) = || p-(t-h ) || = ||p-r||$

该能量函数在关系路径 p 和关系 r 一致时拥有较低的分数,不需要考虑实体的向
量信息。

最终目标函数

mark

其他重要细节

添加反向关系

PCRA只考虑了一个方向,我们也需要反向关系,而反向关系在现有知识图谱中很可能不存在。

因此,我们对于知识图谱中的每一个关系添加一个反向关系,也就是,对于每一个关系事实三元组 (h,r, t),我们向知识图谱中添加其对应的反向三元组 (t,$r^{-1}$, h)。

关系路径选择约束

为了提高计算效率,本章节中我们将路径长度限制在最多 3 步,并仅考虑那些置信度分值大于 0.01 的关系路径.

Re:

http://nlp.csai.tsinghua.edu.cn/~lzy/thesis/2019_linyankai.pdf

https://www.jianshu.com/p/c3ace92cd6ef

if help:小手一抖点个广告 or 大手一挥资助一下