## Document-level in a specific domain.

Background

论文动机

  • 文档级的关系抽取涉及到多种信息 (non-local/local/syntactic/semantic dependencies), 现有的方法不能充分地利用(exploit)these dependencies.

    • Local dependency <=> within sentence 句内依赖

      • Dependency parsing 依赖解析
      • Adequate for intra-sentence relations
    • Non-Local dependencies<=>across sentences 句间依赖

      • Co-reference 共指
      • Discourse dependencies
      • Required for inter-sentence relations

      image-20200723103516484

  • 不同的sentence有不同的 dependency tree.

论文贡献

  • 构建==GCNN-based model 捕获 localnon-local dependencies。==
    • GCNN : a labelled edge Graph CNN
  • 贡献了一个新的数据集
  • Effectiveness of local and non-local dependencies on inter-sentence pairs

Model

IDEA: Utilise local and non-local dependencies in combination.

  • Represent a textual snippet as a graph.

  • Words = nodes

    Edges =local,non-local dependencies

  • Incorporate ==GCNN for graph encoding==

  • Multi-instance Learning for concept-level relation extraction.

image-20200723104325695

引申一个重要的定义:==Entity mentions==: we name the multiple occurrences of these entities in the document

我们在文档 $t$ 上应用多实例学习来combine 所有的mention-level pairs,之后预测最终的关系类别(concept-level relation extraction)。

Input layer

对于每一个word $i$ , 我们合并the word and position representations(relative positions to the first and second target entities 相对于第一个和第二个目标实体的相对位置 ):

image-20200722164807892

如果一个entity有多个mention的话,那么就选择与当前word最近的mention来计算相对位置。

image-20200723104528014

Graph Construction

图的构建由五大类特征构成,所以构建的图一共有5种边。由于边的类型不同,所以==GCNN构建的图属于异质网络图 。==

image-20201118192631165

image-20201118194403947

local dependencies:

  1. Syntactic dependency edge: (clues for intra-sentence relations) 句子内的句法依赖边。使用句子内的依存语法树,每种依存关系作为一种类型的边;

image-20201118193659693

  1. Adjacent word edge: 对于同一个sentence,为了保持句内单词间的序列信息,连接当前word相邻的单词;

combine the next word and the previous word to the current word in order to encode some kind of sequential information into the model.

image-20201118193711646

  1. Self-node edge: 自节点边,为了学习到自身的信息。

在模型中包含有关单词的本身信息

image-20201118193914246

non-local dependencies:

  1. Coreference edge:共指边,代表两个指称描述同一个实体

image-20201118194153595

  1. Adjacent sentence edge:将相邻句子的依存语法树==根节点连接==构成一种类型的边(the root of sentence)

image-20201118194042388

GCNN Layer

GCNN使用的GCN和普通的GCN有一些不同,它只交互一阶相邻节点的信息,并且有K个块,==每个块针对一种边进行卷积操作==,最后将各个块的结果累加。

GCNN的整个处理过程其实可以看作是基于==5种关联类型构建了5个图==,分别进行图卷积操作,然后将5个图的结果累加。(怎么叠加呢)这样做的原因是不同的关联类型代表的含义是不同的,必须加以区分。(异质图?)GCNN最大的亮点就在这里,==通过分层巧妙的使用了多种关联关系。==

这里使用的GCNN与普通的GCN不同,这里在aggregate node representation的时候,只使用了其邻域的信息,并且对于不同类型的edge,分别使用GCN(毕竟GCN只能用于同质图),最终的结果是所有类型的graph的结果的加和。

A labelled edge GCNN,keeping ==separate parameters for each edge type.==

image-20201118195132991

$\mathbf{W}_{l(i, u)}^{k}$和$\mathbf{b}_{l(i, u)}^{k}$,其中$k$表示$k$-th block for ==edge type $l$,== between nodes $i$ and $u$ .

Stack $K$ GCNN blocks 目的:汇聚来自 distant neighbouring nodes的 information

image-20200723111652376

In order to ==avoid over parameterization,==we tune the number of parameters and keep the top and keep most frequent edge types while merging all the remaining types as a single rare edge type.(有问题??作者的意思就是五个不同的W吗?那最后x的信息怎么汇聚呢?五个不同的x呢呀)

A:应该是直接叠加

Tune number of parameters keeping top-N most frequent type & merging rare

MIL-based Relation Classification

前提概要:Each target entity can have multiple mentions in a document,we employ a multi-instance learning (MIL)-based classification scheme to ==aggregate the predictions of all target mention pairs== using bi-affine pairwise scoring(为在一篇document中,每一个entity会有多个mention,我们希望能够去聚合target entity所有的mention,并通过bi-affine pairwise scoring对文章中出现的所以单词对进行打分,从而预测关系类别。bi-affine是一种self-attention编码器,可以一次计算出文档中所有mention之间的关系。。)

首先,==每个word都分别映射到两个独立的 latent 空间。==

image-20200722214455804

$\mathbf{W}^{(1)}$和$\mathbf{W}^{(0)}$是分别是2-layer FFNNs的参数。$\mathrm{x}_{i}^{\text {head}}, \mathrm{x}_{i}^{\text {tail}} \in \mathbb{R}^{d}$

得到节点的表示后使用多示例学习,将上一步得到的结果映射为两个值,这一步的操作和下一步紧密相关,两个值分别用于计算节点是头实体和尾实体时节点间的关系概率。这里多示例学习的原理类似Transformer中的多头注意力,为了捕捉更多样的特征。以关系分类的角度这样做也很合理,==因为关系三元组是有向的,节点作为主体和客体时使用的特征也应该不同。==

Aggregate mention pairs (x) —>>>>concept pair (e),combine information form multiple mention level pairs into a single concept level pair

image-20200722214925471

$\mathbf{R} \in \mathbb{R}^{d \times r \times d}$ is a learned bi-affine tensor with $r$ ($r$ is the number of relation categories)


Experiment

数据集:CDR、CHR (这种两个biochemistry领域的document-level 关系抽取数据集)

image-20200723113525448

image-20200723113548128

CDR&CHR

image-20200722215824962

​ Statistics of the CDR and CHR datasets.

image-20200722215920037

​ Performance on the CDR and CHR test sets in comparison

What is the optimal number of edge types ?

image-20200723113933667

image-20200723114059594

思考:

GCNN 中规中矩,没有特别出色的地方:

确确实实构建了异质图,但是却没有考虑到不同类型edge的作用;

logical reasoning几乎没有单独拿来讨论处理,纯靠GCNN(邻域聚合能推理个毛线?);

所有类型edge在构建的时候需要其他工具,错误肯定存在的;

对于word representation的表示没考虑到上下文,表示不够;

卷积神经网络(Convolutional Neural Networks, CNN)是一种前馈神经网络,其由一个或多个卷积层和顶端的全连接层组成,同时包括关联权重和池化层等。其中最重要的构建模块为卷积层,相比较与全连接层,其学到的是输入图像局部模式。具体来说,卷积神经网络经过训练之后学习到的是在输入图像的二维小窗口中发现的模式,这些窗口可以表示为一幅小图像,也被称为感受野。值得注意的是,卷积层的神经元不会连接到输入图像中的每个像素,而只与其感受野内的像素相连接,这样的设计架构使得网络在当前隐藏层将前置隐藏层中学到的低阶特征组装为比较高阶的特征,这种强大的网络结构可以检测到视觉区域内的所有复杂模式。同时,相比较与全连接神经网络,由于其在给定卷积核中共享相同的参数,即在局部区域上的相同的线性变换应用到输入的所有区域上,因此大大减少了模型中的参数数量。而对于全连接神经网络来说,当它学会了在一个位置识别模式,它就只能在那个特定位置识别它。

除了卷积层之外,卷积神经网络中的池化层主要是对输入图像进行下采样,以便减少计算量、内存使用量和参数数量。就像在卷进层中一样,池化层中的每个神经元都连接到位于一个小窗口中的有限数量的神经元输出。但是,池化层并没有权重,其主要是使用聚合函数来聚合输入,以达到下采样的目的。简而言之,池化层一方面减少了需要处理的元素个数,另一方面让连续的卷积层的观察窗口覆盖更大比例的原始输入,进而引入空间过滤器的层次结构,学习到更加复杂和抽象的视觉概念。