Snapshot

  • 模型名称:MIUK

  • 论文来源:AAAI 2021 北大

  • 面向任务:DocRED

  • 论文动机:利用来自KGs的先验知识提升关系抽取的性能表现

  • 指标分数:Ign F1:58.05,F1:59.99

  • 快看速评:一篇融合local context与global kownledge的文章,通过检索KGs中与目标实体关联的concept作为补充信息,通过三种视角concept/entity/mention view聚合目标实体信息;对于KGs的选择,uncertain KGs (ConceptNet,ProBase)相对于 deterministic KGs 更容易捕获相关信息;同时作者还构建了一个实体、概念的文本描述知识库作为目标实体的补充语义信息 (ProBase_Desp)

    Given two words (typically two entities or an entity and a concept) and a relation, uncertain KGs provide a confidence score that measures the possibility of the two words have the given relation.

  • 代码复现:https://github.com/pkuserc/AAAI2021-MIUK-Relation-Extraction

Method

Input

image-20210324151720692

  • Input ducument : 借助entity anchors标记实体的所有提及
  • Uncertain KG(Probase): 从ProBase中检索 top-K concepts以及其置信度得分
  • Entity and Concept Descriptions: 与实体有关的the first two paragraphs作为补充信息

Cross-view Inference Framework

(1) Mention2Entity Links: 目的是为了得到entity embedding

再得到mention embedding之后,与以往直接平均mention embedding得到entity vector不同,这篇paper认为加个权重不错的😎,此权重从何而来?答曰:entity descriptions

方法:以mention embedding作为key vector,entity description为query vector,计算权重。

得到local entity represnetation $e_l$, 进一步添加minimum distance ($d_{ht}=-d_{th}$)得到local interactive vector:

(2) Entity2Concept Links:目的是为了得到与目标实体相关的concept vector

对于目标实体$e$,从ProBase中检索与其相关 top-K concepts($c_1,c_2,\dots,c_k$)以及其置信度得分[transform into weight ($w_1,w_2,\dots,w_k$)]。有三种方式聚合其top-K concepts信息:

  • Non-weighting Integration 平均

  • Attention-based weighting Integration 基于注意力机制

    以local entity representation $e_l$ 作query vector,$c_k$ 作为key vector。

  • Prior Knowledge-based weighting Integration 基于先验知识权重聚合

    Assumes that the weighting scores provide a prior probability distribution of concepts

(3) Conept2Entity Links:目的是利用concept representation得到global interactive vector

将目标实体的concept representation和description vector拼接后

Information aggregation

再得到$u_l$(包含contextual information)与$u_g$(external knowledge),引入门控得到最终表示,$\mathbf{g} \in \mathbb{R}^{1 \times d}$为gating vector

接着聚合sentence representations得到document vector,分别以 entity 的 local interactive vector、entity 的 global interactive vector 作为 query,对 sentence 表示做 attention,这两个 attention score 再加上一个“entity 出现在 sentence 中”的分数,作为最终的 attention score,来 attention aggregation 得到 document 表示.

前一项为Information weight,后一项为empirical weight。

Predication

没啥好说的…document representation与entity pair

Experiment

实验结果

消融实验

  • 有用结论:基于先验置信度信息聚合相比于基于注意力机制的信息聚合(AWI)更能够有效聚合relevant concept 。

  • MIUK-NWI:deterministic KGs ;MIUK:uncertain KGs

TODO

文中实验对比的GEDA与DEMMT文章没看

引入外部知识思路是好的,但是模型设计得太复杂了吧…不是很懂是怎么设计出来的呢?不优雅

BERT能否作为一个隐形知识库替换呢?

关注这篇文章的开源工作