物理学家给出解释,句法分析

日期:2019-06-08编辑作者:优德88手机版
  1. 一个令人困惑的问题

编译 | 椰叶

句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系。句法分析不是一个自然语言处理任务的最终目标,但它往往是实现最终目标的关键环节。

人类在儿童时期是如何学习语言的基本语法结构,然后创造出他们从未听过的句子?这是一个已经困扰语言学家很久的问题。

  1. 一个令人困惑的问题

句法分析分为句法结构分析依存关系分析两种。以获取整个句子的句法结构为目的的称为完全句法分析,而以获得局部成分为目的的语法分析称为局部分析,依存关系分析简称依存分析

着名语言学家乔姆斯基(Noam Chomsky)曾提出过一个非常有名的理论:人类具有与生俱来的语言能力,儿童天生就具有适用于所有人类语言的基本语法结构的知识。这种观点被称为普遍语法理论。虽然一直以来,这种观点饱受批评,但目前仍没有强大的理论来解开我们对于人类究竟如何理解语法规则的困惑。

人类在儿童时期是如何学习语言的基本语法结构,然后创造出他们从未听过的句子?这是一个已经困扰语言学家很久的问题。

一般而言,句法分析的任务有三个:

  1. 物理思维的语言分析

着名语言学家乔姆斯基(Noam Chomsky)曾提出过一个非常有名的理论:人类具有与生俱来的语言能力,儿童天生就具有适用于所有人类语言的基本语法结构的知识。这种观点被称为普遍语法理论。虽然一直以来,这种观点饱受批评,但目前仍没有强大的理论来解开我们对于人类究竟如何理解语法规则的困惑。

判断输出的字符串是否属于某种语言

在一项最新的研究中,巴黎高等师范学校的物理学家Eric DeGiuli用物理学思维提出了一种可能的机制,他提出,这可能涉及到一个“相变”过程,就像水在结冰时会经历的从液态到固态的相变一样:在儿童凭着直觉掌握语法规则的过程中,语言中的一些“深层结构”会突然如结晶一般变得具体而明晰。在这样一个相变过程中,语言从一堆杂乱无章的词语,转变为一种高度结构化并拥有丰富信息的交流系统。

  1. 物理思维的语言分析

消除输入句子中词法和结构等方面的歧义

在所有人类语言中都存在这样一种树状网络,它是由词语之间的关系和决定了词语组合的语法规则构成的。

在一项最新的研究中,巴黎高等师范学校的物理学家Eric DeGiuli用物理学思维提出了一种可能的机制,他提出,这可能涉及到一个“相变”过程,就像水在结冰时会经历的从液态到固态的相变一样:在儿童凭着直觉掌握语法规则的过程中,语言中的一些“深层结构”会突然如结晶一般变得具体而明晰。在这样一个相变过程中,语言从一堆杂乱无章的词语,转变为一种高度结构化并拥有丰富信息的交流系统。

分析输入句子的内部结构,如成分构成、上下文关系等。

优德88手机版 1

在所有人类语言中都存在这样一种树状网络,它是由词语之间的关系和决定了词语组合的语法规则构成的。

第二三个任务一般是句法分析的主要任务。

一个典型的英文句子被分解为树状结构。| 图片来源:1]

优德88手机版 2

一般来说,构造一个句法分析器需要考虑两部分工作:一部分是语法的形式化表示和词条信息描述问题,形式化的语法规则构成了规则库,词条信息等由词典或同义词表等提供,规则库与词典或同义词表构成了句法分析的知识库;另一部分就是基于知识库的解析算法了。

在论文中,DeGiuli就用英文句子“the bear walked into the cave”(这只熊走入了洞穴之中)来作为例子:这个句子可以被划分为一个名词短语和一个动词短语,而每一个短语又可以被划分成更小的词组。每一次划分都可以用树状图中的一个分叉点来表示,而处于在分叉末端的“树叶”,就是实实在在的名词、动词、代词等词语。

一个典型的英文句子被分解为树状结构。| 图片来源:1]

语法形式化属于句法理论研究的范畴,目前在自然语言处理中广泛使用的是上下文无关文法(CFG)和基于约束的文法,后者又称合一文法。

这样一种语法的最简单类型是上下文无关文法,这是几乎所有的人类语言都共有的一种语法。

在论文中,DeGiuli就用英文句子“the bear walked into the cave”(这只熊走入了洞穴之中)来作为例子:这个句子可以被划分为一个名词短语和一个动词短语,而每一个短语又可以被划分成更小的词组。每一次划分都可以用树状图中的一个分叉点来表示,而处于在分叉末端的“树叶”,就是实实在在的名词、动词、代词等词语。

简单的讲,句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。

在新发表的论文中,DeGiuli提出可以将CFG这种语法视为物理对象来对待:在这些树的“表面”(也就是语法结构之树的末端),承载着词语通过所有可能的排列组合形成的句子,这当然也包括那些没有意义的句子。当儿童接触到树的“表面”(也就是他们听到的句子)时,会本能地推断出处于树状结构“深层”的语法规则。

这样一种语法的最简单类型是上下文无关文法,这是几乎所有的人类语言都共有的一种语法。

基于规则的句法结构分析方法的基本思路是,由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除。

通过这些语法规则,他们就能了解在规则之下,什么句子是可行的,什么是不可行的。这一过程事实上相当于为不同的分叉分配权重,并且他们会根据听到的语言不断地对权重进行调整。最终,那些会延伸出不符合语法规则的句子的分叉,只会获得非常小的权重,那些句子也就会被识别为不可行的句子。

在新发表的论文中,DeGiuli提出可以将CFG这种语法视为物理对象来对待:在这些树的“表面”(也就是语法结构之树的末端),承载着词语通过所有可能的排列组合形成的句子,这当然也包括那些没有意义的句子。当儿童接触到树的“表面”(也就是他们听到的句子)时,会本能地推断出处于树状结构“深层”的语法规则。

根据句法分析树形成方向的区别,人们通常将这些方法划分为三种类型:自顶向下的分析方法,自底向上的分析方法和两者相结合的分析方法。自顶向下分析算法实现的是规则推导的过程,分析树从根结点开始不断生长,最后形成分析句子的叶结点。而自底向上分析算法的实现过程恰好想法,它是从句子符号串开始,执行不断规约的过程,最后形成根节点。

DeGiuli将这些众多的词语构型视为统计力学中的微观状态——一个系统的构成粒子的所有可能排列的集合。

通过这些语法规则,他们就能了解在规则之下,什么句子是可行的,什么是不可行的。这一过程事实上相当于为不同的分叉分配权重,并且他们会根据听到的语言不断地对权重进行调整。最终,那些会延伸出不符合语法规则的句子的分叉,只会获得非常小的权重,那些句子也就会被识别为不可行的句子。

基于规则的语法结构分析可以利用手工编写的规则分析出输入句子所有可能的句法结构;对于特定领域和目的,利用有针对性的规则能够较好的处理句子中的部分歧义和一些超语法(extra-grammatical)现象。

在CFG中,所有节点之间的权重都是相等的,所有句子出现的可能性都是一样的,因此也就无法识别出那些由词语随机排列而成的无意义组合。问题是,在所有可能的CFG中,是什么样的权重分布能让有的CFG产生由词语随机组合而成的句子,有的则会产生携带着丰富信息的句子的?

DeGiuli将这些众多的词语构型视为统计力学中的微观状态——一个系统的构成粒子的所有可能排列的集合。

但对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,而且就算分析出来了,也难以实现有效的消歧,并选择出最有可能的分析结果;手工编写的规则带有一定的主观性,还需要考虑到泛化,在面对复杂语境时正确率难以保证;手工编写规则本身就是一件大工作量的复杂劳动,而且编写的规则领域有密切的相关性,不利于句法分析系统向其他领域移植。

  1. 语言中的“相变”

在CFG中,所有节点之间的权重都是相等的,所有句子出现的可能性都是一样的,因此也就无法识别出那些由词语随机排列而成的无意义组合。问题是,在所有可能的CFG中,是什么样的权重分布能让有的CFG产生由词语随机组合而成的句子,有的则会产生携带着丰富信息的句子的?

基于规则的句法分析算法能够成功的处理程序设计语言的编译,而对于自然语言的处理却始终难以摆脱困境,是因为程序设计语言中使用的知识严格限制的上下文无关文法的子类,但自然语言处理系统中所使用的形式化描述方法远远超过了上下文无关文法的表达能力;而且人们在使用程序设计语言的时候,一切表达方式都必须服从机器的要求,是一个人服从机器的过程,这个过程是从语言的无限集到有限集的映射过程,而在自然语言处理中则恰恰相反,自然语言处理实现的是机器追踪和服从人的语言,从语言的有限集到无限集推演的过程。

DeGiuli通过统计力学中的技术对此进行了理论分析,他发现其中涉及到两个关键因素:一是这些权重能在多大程度上“修剪”掉在语法之树深处的分叉;二是在特定句子出现的树状结构表面,它们又能修剪掉多少分叉。

  1. 语言中的“相变”

完全语法分析

在这两种情况下,分叉的稀疏程度所扮演的角色类似于统计力学中的温度,无论是在表面还是深处,降低温度都意味着减少更多的权重。DeGiuli发现,当深层的温度降低时,也就是让树的内部变得稀疏时,会突然出现一种转变:随机无序的CFG转变为包含丰富信息的有组织的CFG。

DeGiuli通过统计力学中的技术对此进行了理论分析,他发现其中涉及到两个关键因素:一是这些权重能在多大程度上“修剪”掉在语法之树深处的分叉;二是在特定句子出现的树状结构表面,它们又能修剪掉多少分叉。

基于PCFG的基本分析方法

这种转变就是我们在前面提到的相变,新的研究认为,类似这样的转变机制或许可以解释为什么发育到一定阶段,儿童就能很快学地会如何构建符合语法规则的句子。因为当过了那个点,词语就不再仅仅只是词语,而是变成了能构成具有复杂结构且富有含义的句子的成分。

在这两种情况下,分叉的稀疏程度所扮演的角色类似于统计力学中的温度,无论是在表面还是深处,降低温度都意味着减少更多的权重。DeGiuli发现,当深层的温度降低时,也就是让树的内部变得稀疏时,会突然出现一种转变:随机无序的CFG转变为包含丰富信息的有组织的CFG。

基于概率上下文无关文法的短语结构分析方法,可以说是目前最成功的语法驱动的统计句法分析方法,可以认为是规则方法与统计方法的结合。

儿童并不需要已经完成了所有正确的权重分配才能发生这种转变,他们会继续完善对语言的理解。

这种转变就是我们在前面提到的相变,新的研究认为,类似这样的转变机制或许可以解释为什么发育到一定阶段,儿童就能很快学地会如何构建符合语法规则的句子。因为当过了那个点,词语就不再仅仅只是词语,而是变成了能构成具有复杂结构且富有含义的句子的成分。

PCFG是CFG的扩展,举个例子:

  1. 意义

儿童并不需要已经完成了所有正确的权重分配才能发生这种转变,他们会继续完善对语言的理解。

优德88手机版 3

一直以来,许多语言学家和神经学家就儿童是如何从一堆句子中提炼出语法的展开了广泛的探讨与争论。DeGiuli使用归纳推理和概率推理所构建的这个理论,与他在儿童语言习得过程中观察到的现象是一致的。而且这个新的理论是可以做出定量预测的,因此有机会在未来接受检验。或许,DeGiuli所提出的这样一个抽象过程最终能在神经学层面与观察到的现象联系起来,那时,科学家或许能够理解是什么阻碍了那些有学习障碍的孩子的语言能力,

  1. 意义

PCFG

编译:椰叶

一直以来,许多语言学家和神经学家就儿童是如何从一堆句子中提炼出语法的展开了广泛的探讨与争论。DeGiuli使用归纳推理和概率推理所构建的这个理论,与他在儿童语言习得过程中观察到的现象是一致的。而且这个新的理论是可以做出定量预测的,因此有机会在未来接受检验。或许,DeGiuli所提出的这样一个抽象过程最终能在神经学层面与观察到的现象联系起来,那时,科学家或许能够理解是什么阻碍了那些有学习障碍的孩子的语言能力,

当然,同一个符号不同生成式的概率之和为1。NP是名词短语、VP是动词短语、PP是介词短语。

参考链接:

参考链接:

基于PCFG的句法分析模型,满足以下三个条件:

1]

1]

位置不变性:子树的概率不依赖于该子树所管辖的单词在句子中的位置

2]

2]

上下文无关性:子树的概率不依赖于子树控制范围以外的单词

《万物》2019年3月刊现已上市

祖先无关性:子树的概率不依赖于推导出子树的祖先节点

根据上述文法,『He met Jenny with flowers』有两种可能的语法结构:

优德88手机版 4

而且我们可以通过将树中的所有概率相乘,得到两棵子树的整体概率,从中选择概率更大的子树作为最佳结构。

与HMM类似,PCFG也有三个基本问题:

给定一个句子W=w1w2…wn和文法G,如何快速计算概率P(W|G)

给定一个句子W=w1w2…wn和文法G,如何选择该句子的最佳结构?即选择句法结构树t使其具有最大概率

给定PCFG G和句子W=w1w2…wn,如何调节G的概率参数,使句子的概率最大

首先是第一个问题,HMM中我们用的是前向算法和后向算法来计算观察序列O概率,相似的,这里我们用的是内向算法和外向算法来计算P(W|G) 。

首先我们定义内向变量αij(A),与前向变量相似但又有不同,αij(A)即非终结符A推导出W中字串wiw(i 1)…wj的概率。那P(W|G)自然就等于α1n(S)了,S是起始符号,计算的就是由起始符号S推导出整个句子W=w1w2…wn的概率。

所以只要有αij(A)的递归公式就能计算出P(W|G),递归公式如下:

优德88手机版 5

根据定义,αii(A)自然就等同于符号A输出wi的概率;而αij(A)的计算思路是,这个子串wiw(i 1)…wj可以被切成两部分处理,前一部分wiw(i 1)…wk由非终结符号B生成,后一部分wkw(k 1)…wj由非终结符号C生成,而BC由A生成。这样将概率依次相乘,即可将一个大问题划分为两个小问题处理,两个小问题又可以进一步划分直到不能划分为止,然后递归回来得到结果。

这里给一张内向变量计算方法示意图:

优德88手机版 6

这个问题也可以用外向算法来解决。

首先定义外向变量,βij(A)是,初始符号S在推导出语句W=w1w2…wn的过程中,产生符号串w1w2…w(i-1)Aw(j 1)…wn的概率(隐含着A会生成wiw(i 1)…wj)。也就是说βij(A)是S推导出除了以A节点为根节点的子树以外的其他部分的概率。

《统计自然语言处理(第二版)》这本书里讲错了,这里我给出我自己的理解,书里给的算法步骤如下:

优德88手机版 7

很明显的错误,初始化都把结果初始化了,那这个算法还算什么,直接等于1就完了呗。

这是作者对外向变量定义理解模糊的问题,上面给了外向变量的定义,里面有一句话『隐含着A会生成wiw(i 1)…wj』,那问题在于,A会生成wiw(i 1)…wj,这到底算是条件还是推论。

看这个算法的初始化的意思,说β1n(A),在A=S的时候,为1,不等于S为0,意思是什么?意思就是『隐含着A会生成wiw(i 1)…wj』这句话是条件,β1n(S)已经隐含了S生成W=w1w2…wn了,所谓的w1w2…w(i-1)Aw(j 1)…wn也就不存在了,只剩下一个S->S了,所以概率自然为1。

但是在第三步这个地方,作者理解成什么意思了呢?作者又把『隐含着A会生成wiw(i 1)…wj』这句话当成推论了,认为在β1n(S),里S会生成W=w1w2…wn是推论,那真是就正好了,要求的结果就是S生成W=w1w2…wn,这不就结束了吗,结果就导致了这个算法第一步初始化都把结果初始化了。

那我的理解是什么呢,通过这个公式计算出来的β1n(S),确实是正确的,意义实际上也是包含了『隐含着A会生成wiw(i 1)…wj』这句话是推论,但是右侧式子里由于不断递归而产生的β1n(S),是把『隐含着A会生成wiw(i 1)…wj』这句话当条件的,所以计算上没有问题。

我倾向于为第三步中的β1n(S)加一个星号,以表明意义的不同。

书中还给了个外向变量的计算方法示意图,我觉得也是莫名其妙:

优德88手机版 8

他说βij(A)是这两种情况的概率和,这我们知道j比i大,那这图里这个k既比i小又比j大,这不是搞笑吗。只能说图上这俩C就不是一个C,k也不是一个k。

那我为什么会理解成一个呢,除了字母相同,他前面还这么讲『必定运用了形如B->AC或者B->CA的规则』、『运用B->AC或者B->CA两种规则的情况』,这明显就是给人以顺序交换的误解。

另外,还在内向变量的使用上前后不一,可以说这本书里对外向算法的讲解是非常失败的。而且对外向算法的计算仍然需要用到内向算法的递归,那真的直接用内向算法就好了,外向算法还要多定义变量。

然后是第二个问题,选择句子的最佳结构,也即给定一个句子W=w1w2…wn和文法G,

选定拥有最大概率的语法结构树。这一问题与HMM中类似,仍然采用动态规划的思想去解决。最后利用CYK算法去生成拥有最大概率的语法结构树。

第三个问题是给定PCFG G和句子W=w1w2…wn,如何调节G的概率参数,使句子的概率最大,与HMM相对的,PCFG这里采用的算法名叫内外向算法。与前后向算法相同,也属于一种EM算法,其基本思想是,首先给G的产生式随机地赋予一个概率值(满足归一化条件),得到文法G0,然后根据G0和训练数据,可以计算出每条规则使用次数的期望值,用期望值进行最大似然估计,得到语法G的新参数值,新的语法记作G1,然后循环执行该过程,G的参数概率将收敛于最大似然估计值。

PCFG只是一种特殊的上下文无关文法模型,根据PCFG的模型和句子,具体去对句子做语法分析,生成语法结构树,靠的是还是CYK算法。CYK算法是一个用来判定任意给定的字符串W是否属于一个上下文无关文法的算法。

基于PCFG的句法分析模型存在有许多问题,比如因为PCFG没有对词汇进行建模,所以存在对词汇信息不敏感的问题。因此人们提出了词汇化的短语结构分析器,有效的提升了基于PCFG的句法分析器的能力。

而且,我们上面也提到了PCFG的三个独立性假设,这也导致了规则之间缺乏结构依赖关系(就像HMM的三个假设也不完全合理一样),而在自然语言中,生成每个非终结符的概率往往是与其上下文结构有关系的,所以有人提出了一种细化非终结符的方法,为每个非终结符标注上其父节点的句法标记信息。

D. Klein提出了带有隐含标记的上下文无关文法(PCFG with latent annotations,PCFG-LA),使得非终结符的细化过程可以自动进行,并且在使用EM算法优化时,为避免到达局部最优,对其进行了改进,提出了一种层次化的『分裂-合并』策略,以期获取一个准确并且紧凑的PCFG-LA模型。基于PCFG-LA的Berkeley Parser作为非词汇化句法分析器的代表,无论是性能表现还是运行速度,都是目前开源的短语结构分析器中最好的。其语法树如下图:

优德88手机版 9

普通句法树与PCFG-LA句法树对照实例

这个x就是隐含标记,xi的取值范围一般是人为设定的,一般取1~16之间的整数。而且PCFG-LA也类似于HMM模型,原始非终结符对应HMM模型中的观察输出,而隐含标记对应HMM模型中的隐含状态。

浅层语法分析(局部语法分析)

由于完全语法分析要确定句子所包含的全部句法信息,并确定句子中各成分之间的关系,这是一项十分苦难的任务。到目前为止,句法分析器的各方面都难以达到令人满意的程度,为了降低问题的复杂度,同时获得一定的句法结构信息,浅层句法分析应运而生。

优德88手机版,浅层语法分析只要求识别句子中的某些结构相对简单的独立成为,例如非递归的名词短语、动词短语等,这些被识别出来的结构通常称为语块(chunk)。

浅层句法分析将句法分析分解为两个主要子任务,一个是语块的识别和分析,另一个是语块之间的依附关系分析。其中,语块的识别和分析是主要任务。在某种程度上说,浅层句法分析使句法分析的任务得到了简化,同时也有利于句法分析系统在大规模真实文本处理系统中迅速得到应用。

基本名词短语(base NP)是语块中的一个重要类别,它指的是简单的、非嵌套的名词短语,不含有其他子项短语,并且base NP之间结构上是独立的。示例如下:

优德88手机版 10

base NP识别就是从句子中识别出所有的base NP,根据这种理解,一个句子中的成分和简单的分为baseNP和非base NP两类,那么base NP识别就成了一个分类问题。

base NP的表示方法有两种,一种是括号分隔法,一种是IOB标注法。括号分隔法就是将base NP用方括号界定边界,内部的是base NP,外部的不属于base NP。IOB标注法中,字母B表示base NP的开端,I表示当前词语在base NP内,O表示词语位于base NP之外。

基于SVM的base NP识别方法

由于base NP识别是多值分类问题,而基础SVM算法解决的是二值分类问题,所以一般可以采用配对策略(pairwise method)和一比其余策略(one vs. other method)。

SVM一般要从上下文的词、词性、base NP标志中提取特征来完成判断。一般使用的词语窗口的长度为5(当前词及其前后各两个词)时识别的效果最好。

基于WINNOW的base NP识别方法

WINNOW是解决二分问题的错误驱动的机器学习方法,该方法能从大量不相关的特征中快速学习。

WINNOW的稀疏网络(SNoW)学习结构是一种多类分类器,专门用于处理特征识别领域的大规模学习任务。WINNOW算法具有处理高维度独立特征空间的能力,而在自然语言处理中的特征向量恰好具有这种特点,因此WINNOW算法也常用于词性标注、拼写错误检查和文本分类等等。

简单WINNOW的基本思想是,已知特征向量和参数向量和实数阈值θ,先将参数向量均初始化为1,将训练样本代入,求特征向量和参数向量的内积,将其与θ比较,如果大于θ,则判定为正例,小于θ则判定为反例,将结果与正确答案作比较,依据结果来改变权值。

如果将正例估计成了反例,那么对于原来值为1的x,把它的权值扩大。如果将反例估计成了正例,那么对于原来值为1的x,把它的权值缩小。然后重新估计重新更改权重,直到训练完成。

这其实让我想到了LR算法,因为LR算法也是特征向量与参数向量的内积,最后将其送到Sigmoid函数中去拿到判定结果,然后大于0.5的为正例,小于0.5的为反例,实际上只要反过来,Sigmod函数输出0.5时候的输入就是WINNOW算法里的那个实数阈值θ。但是区别在于WINNOW算法只判定大小,不判定概率,而LR利用Sigmoid函数给出了概率。LR利用这给出的概率,通过使训练集的生成概率最大化来调整参数,而WINNOW则是直接朴素的错误情况来增大或缩小相关参数。目测LR因为使用了梯度下降,它的收敛速度要快于WINNOW,而WINNOW的优势则在于可以处理大量特征。

基于CRF的base NP识别方法

基于CRF的base NP识别方法拥有与SVM方法几乎一样的效果,优于基于WINNOW的识别方法、基于MEMM的识别方法和感知机方法,而且基于CRF的base NP识别方法在运行速度上较其他方法具有明显优势。

依存语法理论

在自然语言处理中,我们有时不需要或者不仅仅需要整个句子的短语结构树,而且要知道句子中词与词之间的依存关系。用词与词之间的依存关系来描述语言结构的框架成为依存语法,又称从属关系语法。利用依存语法进行句法分析也是自然语言理解的重要手段之一。

有人认为,一切结构语法现象可以概括为关联、组合和转位这三大核心。句法关联建立起词与词之间的从属关系,这种从属关系由支配词从属词联结而成,谓语中的动词是句子的中心并支配别的成分,它本身不受其他任何成分支配

依存语法的本质是一种结构语法,它主要研究以谓词为中心而构句时由深层语义结构映现为表层语法结构的状况及条件,谓词与体词之间的同现关系,并据此划分谓词的词类。

常用的依存于法结构图示有三种:

优德88手机版 11

计算机语言学家J. Robinson提出了依存语法的四条公理:

一个句子只有一个独立的成分

句子的其他成分都从属于某一成分

任何一个成分都不能依存于两个或两个以上的成分

如果成分A直接从属于成分B,而成分C在句子中位于A和B之间,那么,成分C或者属于成分A,或者从属于B,或者从属于A和B之间的某一成分。

这四条公理相当于对依存图和依存树的形式约束:单一父节点、连通、无环和可投射,由此来保证句子的依存分析结果是一棵有根的树结构。

这里提一下可投射,如果单词之间的依存弧画出来没有任何的交叉,就是可投射的(参考上面的两个有向图)。

为了便于理解,我国学者提出了依存结构树应满足的5个条件:

单纯结点条件:只有终结点,没有非终结点

单一父结点条件:除根节点没有父结点外,所有的结点都只有一个父结点

独根结点条件:一个依存树只能有一个根结点,它支配其他结点

非交条件:依存树的树枝不能彼此相交

互斥条件:从上到下的支配关系和从左到右的前于关系之间是相互排斥的,如果两个结点之间存在着支配关系,它们就不能存在于前于关系

这五个条件是有交集的,但它们完全从依存表达的空间结构出发,比四条公理更直观更实用。

Gaifman 1965年给出了依存语法的形式化表示,证明了依存语法与上下文无关文法没有什么不同..

类似于上下文无关文法的语言形式对被分析的语言的投射性进行了限制,很难直接处理包含非投射现象的自由语序的语言。20世纪90年代发展起来了约束语法和相应的基于约束满足的依存分析方法,可以处理此类非投射性语言问题。

基于约束满足的分析方法建立在约束依存语法之上,将依存句法分析看做可以用约束满足问题来描述的有限构造问题。

约束依存语法用一系列形式化、描述性的约束将不符合约束的依存分析去掉,直到留下一棵合法的依存树。

生成式依存分析方法、判别式依存分析方法和确定性依存分析方法是数据驱动的统计依存分析中具有代表性的三种方法。

生成性依存分析方法

生成式依存分析方法采用联合概率模型生成一系列依存语法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后输出。

生成式依存分析模型使用起来比较方便,它的参数训练时只在训练集中寻找相关成分的计数,计算出先验概率。但是,生成式方法采用联合概率模型,再进行概率乘积分解时做了近似性假设和估计,而且,由于采用全局搜索,算法的复杂度较高,因此效率较低,但此类算法在准确率上有一定优势。但是类似于CYK算法的推理方法使得此类模型不易处理非投射性问题。

判别式依存分析方法

判别式依存分析方法采用条件概率模型,避开了联合概率模型所要求的独立性假设(考虑判别模型CRF舍弃了生成模型HMM的独立性假设),训练过程即寻找使目标函数(训练样本生成概率)最大的参数θ(类似Logistic回归和CRF)。

判别式方法不仅在推理时进行穷尽搜索,而且在训练算法上也具有全局最优性,需要在训练实例上重复句法分析过程来迭代参数,训练过程也是推理过程,训练和分析的时间复杂度一致。

确定性依存方法

确定性依存分析方法以特定的方向逐次取一个待分析的词,为每次输入的词产生一个单一的分析结果,直至序列的最后一个词。

这类算法在每一步的分析中都要根据当前分析状态做出决策(如判断其是否与前一个词发生依存关系),因此,这种方法又称决策式分析方法。

通过一个确定的分析动作序列来得到一个唯一的句法表达,即依存图(有时可能会有回溯和修补),这是确定性句法分析方法的基本思想。

短语结构与依存结构之间的关系

短语结构树可以被一一对应地转换成依存关系树,反之则不然。因为一棵依存关系树可能会对应多棵短语结构树。

本文由优德88官方网站手机版发布于优德88手机版,转载请注明出处:物理学家给出解释,句法分析

关键词:

优德88手机版中华预备好了吗,探月工程打基础

美国国家航空航天局3月21日发布报告称,在火星测温受阻的”洞察”号火星探测器,作业已暂停近三周,故障原因仍...

详细>>

史学家都干了些什么,那句话精确吧

物历史学的界限是教育学,管理学的界限是神学,那句话到底对不对? 那是1本讲述文学史的书,语言拾贰分通俗风趣...

详细>>

卫星排队上天,太空警报发掘奇异

高空垃圾,是指围绕地球轨道漂浮的不算人造物体,小到人造卫星碎片、漆片、固态颗粒物,大到全部飞船残骸。简...

详细>>

为什么量子纠缠超越光速至少10000倍,能统治银河

让人类和平发展一百万年,能或无法统治银系有四个决定性的因素就是“通讯”,要是超光速通讯不可能兑现的话,...

详细>>