Snapshot

  • 模型名称:Three sentence is all you need

  • 论文来源:ACL 2021 北大

  • 面向任务:DocRE

  • 方法分类:Others

  • 论文动机:在给定实体对的情况下,往往仅仅需要依赖几句而非全文便可以推断出其关系。依照此动机,本文提出了一种令人尴尬且简单的方式(embarrassingly simple but effective)来探究到底需要how many sentence才足以推断其关系。

    以往的方法去引入图神经网络便是为了过滤全文的冗余信息。但此类方法不够直接且解释性不强(鬼知道过滤了什么呢)

  • 指标分数:

    • Dev F1:56.54; Test F1:56.23(BiLSTM Base)

      Inter-F1: 49.11 跨句间的表现拉了后腿。

  • 快看速评:本文相较于去思索如何搭建网络,更像是对数据集进行分析。通过“人为”构造规则以模拟“认知”过程。得到的结论对以后的研究有启发意义,文章发现95%的样本仅仅需要不多于3句sentence作为supporting evidence便可以推断出其关系。87%的样本仅仅需要2句或更是。 指标分数虽不突出,但为以后研究,特别是evidence sentence的数量需求有了一个明确的界定。

    好的工作不在于指标高低,而在于角度。

    image-20210724215915750

  • 代码复现:https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need

Method

人为设计的path路径收集规则

受数据标注员标注DocRED数据集的启发(倾向于选择能够将两实体互相联系起来的句子),所以本文人为设计了三种启发式规则收集关于两实体间可能的path集合(实则是sentence集合)

image-20210724220041285

  1. Consecutive Paths(连续):头实体和尾实体限定出现在连续的3句内,也就是两实体距离≤2。此时$S_{i-1},S_{i},S_{i+1}$构成头实体与尾实体间的consecutive paths。由于关于目标实体的提及在文档中不止一次出现,所以大多情景下实体对之间的连续路径不止一条。

  2. Multi-Hop Paths(多跳):目标头实体与尾实体或许相距很远,但是可以通过其他实体连接(bridge)也就是Start from the head entity, go through all the brige entities, arrive at the tail entity。即$(e_h,e_{b1}),(e_{b1},e_{b2}),…(e_{bk},e_t)$,沿着上面的路径便可以择出$k+1$个sentences作为Multi-Hop Paths。根据表1的统计数据,绝大多数关系判断依赖的sentence数量≤3,故这里我们限制k的最大取值为2,同时对于两实体之间的bridge entity可能不止一个,所以也许同一实体对下会存在多条Multi-Hop Paths。

  3. Default Paths:除以上两种路径之外,将所有出现目标头实体与尾实体的句子两两组合取来。也就是头实体sentence集合$\left\{S_{h_{1}}, \ldots, S_{h_{p}}\right\}$,尾实体sentence集合$\left\{S_{t_{1}}, \ldots, S_{t_{p}}\right\}$。将头实体与尾实体的sentence两两组合$\left\{S_{h_{1}}, S_{t_{1}}\right\}, \ldots,\left\{S_{h_{p}}, S_{t_{q}}\right\}$即为Default Paths。

收集的如何?

首先明确的是#Path是句子所连接形成的路径,#Sentence为路径上出现的句子。也就是说#Path:$\left\{S_{h_{1}}, S_{t_{1}}\right\}, \left\{S_{h_{p}}, S_{t_{q}}\right\}$(N = 2);#Sentence(Size of path): $S_{h_{1}}, S_{t_{1}},S_{h_{p}}, S_{t_{q}}$(N=4)。

image-20210725143143637

这里作者解释了一下C+M+D之所以只达到87.5%的覆盖率,是因为supporting evidence annotated in DocRED includes all associated sentences, while C+M+D only find a sufficient set to identify the relation.最终结果是在这三种类型的path下,文档平均句数为8的背景下,仅仅只需要2.69句便可(呼应标题:Three sentence is all you need)。

Experiment

image-20210724220135029

文章的出发点以及研究意义大于这里的指标表现。

这里作者也cue了下graph-based method, 其收集信息主要依赖不那么明朗的self-adaptive manner,而非本文那么明确和可解释。对了,在可解释上,作者从语言本身的角度以及认知角度解释了本文研究得出的结论,算是为其可解释性上解释了一把。