您好、欢迎来到现金彩票网!
当前位置:2019跑狗图高清彩图 > 先行算法 >

Hobbs算法应用在中文代词消解上在ACE2004中Chinese Pen Treebank

发布时间:2019-07-10 09:32 来源:未知 编辑:admin

  Hobbs算法应用在中文代词消解上在ACE2004中Chinese Pen Treebank部分 2哈尔滨工业大学工学硕士学位论文 的共指关系标注语料的基础上 采用了三种模型来应用Hobbs算法。第一种 方法 采用朴素Hobbs 利用句法树来选择代词的先行语 第二种方法加入 了性别和单复数等约束信息

  Hobbs算法应用在中文代词消解上在ACE2004中Chinese Pen Treebank部分 2哈尔滨工业大学工学硕士学位论文 的共指关系标注语料的基础上 采用了三种模型来应用Hobbs算法。第一种 方法 采用朴素Hobbs 利用句法树来选择代词的先行语 第二种方法加入 了性别和单复数等约束信息 第三种方法在候选先行语上加入了语义约束。 中心理论主要针对“在篇章结构中注意焦点、指代表达式选择、以及话 语一致性等关系”提出的Grosz et al 1995。中心理论的一个主要目标 就是在给定的句子中跟踪实体的焦点变化。Sidner1981中有这方面更加详 细的早期工作介绍 其中详细分析了直接焦点以及应用直接焦点来消解人称 代词和指示代词的算法和规则。 中心理论的提出不是为了解决代词消解问题。它主要是提供了一个预测 下一个句子焦点的模型。但由于代词指向的就是焦点实体 因而中心理论一 直被应用于代词消解算法。扩展用于代词消解的中心理论还需要解决单复数 识别、数量名词短语和其他不确定的语义约束信息。 到目前为止 虽然有很多基于中心理论的代词 指代消解算法 原始的 中心理论近来才被实验验证。Poesio et al 2004a采用了一种多参数的方 法来实际检验中心理论。他们指出 在进行回指中心代词消解优选性考察 回指中心的唯一性约束是更加值得考虑的因素。在进行搜索时参数空 间是很大的。因为原始的中心理论在很多细节上没有明确 例如实体如何排 序、什么是话语、如何计算上一个话语。这些细节都是和语言相关的因素 必须针对具体的语言来进行设定。二十世纪九十年代开始共指消解的研究人员开始意识到共指消解的高度 复杂性 开始了更加切合实际的研究。比如 经常把共指消解限定在一个单 一的特定语境、语言知识或语域之内 获得了实际的应用、有效的方法和经 涌现了一批标志性的成果。例如Lappin Leass1994提出的RAPResolution AnaphoraProcedure算法 Mitkov1998提出的“有限知 识”的指代消解方法 王厚峰和梅铮2005提出的中文上的鲁棒性人称代词 消解。 这些系统的一个共同特点都是借助性能日趋强大的自然语言底层处理工 例如词性标注器、浅层句法分析器等针对代词进行消解。首先采用一些过滤和筛选规则 获得候选先行语 然后结合各种处理结果对各个候选先行 语进行各种特征的加权。相关特征包含人称类型、性别、单复数、句法角色 等。权值的设定根据具体的特征类型设定。昀后根据各 个候选先行语获得的 加权得分来选取昀好的候选先行 语作为代词昀后的消解结果。 基于机器学习算法的共指消解3哈尔滨工业大学工学硕士学位论文 机器学习方法应用到共指消解问题中兴起于1995年 随着McCarthy Lehnert1995首次将共指消解问题视为二元分类并采用决策树DecisionTreesC4 5算法以来 共指消解开始在二元分类的框架下获得了长足的发 一般而言共指消解系统的输入是预处理中获得的各种实体表述 Mention。相关的预处理主要包括文本断句、词性标注、命名实体识别、 嵌套名词短语识别等。针对中文等没有空格分隔的语言还需要在文本断句之 后进行分词处理。这些前处理一般采用一些相关的模块来获得。共指消解的 国际评测中 为了更加精准的评测共指消解算法的性能 组办方一般都会提 供标注好Mention的语料。 基于二元分类的框架的流程是首先在测试语料上构建训练实例 接下来 进行特征抽取 然后利用二元分类模型进行分类 进而把表示Mention二元 分类结果合并为Entity 昀后进行共指消解结果的评价。 在二元分类框架下 如何设计需要选定的特征 对于昀终的共指消解性 能具有决定性的影响。共指消解需要考虑的特征主要分为以下几类 词汇、 距离、一致性、语法、语义等。词汇特征主要考虑两个 Mention 的字符串的 匹配程度 一般而言字符串相同程度越高的 Mention 共指概率越大。距离特 征主要考察两个 Mention 的句子距离 这个主要依据是共指事实上也是一种 局部性的替代关系 越是临近的 Mention 之间共指概率越大。一般而言 Mention相隔超过三个句子 共指的可能性就会很小了。一致性特征详细 可以分为性别、单复数、语义类别等是否一致。这组特征主要起到筛选的作 用。语法关系用来判断两个 Mention 的语法角色之间的关系 由于对句子深 层的语法分析还很难办到 这里主要采用的是一些基于特定模板的方法 如判断两个Mention 之间是否被逗号格开或者相邻等来决定是否具有同位关 系。语义特征主要是考察两个 Mention 在语义类别不一致时是否满足上下位 或者同义、近义关系。这种判断主要依赖于具体的语言学词典 例如英文上 WordNetFellbaum1998、中文上的 HowNet董振东 基于聚类的方法分类的经典框架中由于采用了有指导的机器学习方法 不可避免的需要 人标记好的训练语料。但是在共指消解领域 标注语料的工作相对于其他底 层的自然语言处理任务 例如分词、词性标注、命名实体等 困难得多。有 人采用了不需要训练语料的无指导方法来进行共指消解研究。 Cardie Wagstaf1999采用特征向量来表示各个名词短语然后在各 4哈尔滨工业大学工学硕士学位论文 个特征向量上采用聚类算法来实现名词短语的共指消解。聚类过程中采用凝 聚式方法 每次选择两个昀适合合并的类来进行合并。 这种方法可以很好的 避免类似于“Mr Powell”被放入已经存在“She”的类中 从而避免不一致问 题。但是这种方法并不是完全无指导的 因为其中的距离函数以及加权方法 都由启发式方法确定。 共指消解研究当前的发展趋势共指消解的研究对于自然语言理解具有重要的作用。以往的研究框架主 要有两种。一种是基于语言学处理工具的基于规则的方法 一种是抽取指代 语和候选先行语上下文特征后采用各种机器学习模型来选取昀优先行语。经 过分析对比目前的各种共指消解方法和系统 发现共指消解的研究主要存在 以下几种发展趋势 利用深层语言学知识以及背景知识 关系抽取研究现状实体关系抽取 RE Relation Extraction 的任务是从文本中抽取出两个 或者多个实体之间预先定义好的语义关系 Semantic Relationship 。实体关 系抽取作为信息抽取的子任务 是自然语言处理领域重要的未解决的问题之 尤其是中文实体关系抽取的研究相对滞后。目前实体关系抽取的研究主要集中于以下三类方法 第一类方法是将其看作一个分类问题 即通过实体对 Named Entity Pair 的特征来判断该实体对是否属于某一类预先定义好的关系类型 这类 方法一般需要人工标注大量的数据作为训练集。 第二类方法是从关系种子 Seed 出发 在一定规模的文本中抽取实体 之间的关系。这类方法的优点是不需要训练语料 而且能获得很高的准确 率。因此非常适合用于已经拥有建立好的实体关系类型体系 却缺乏标注语 料的情况 缺点为初始的关系种子的选择必须非常慎重 选择的关系种子需 要具有代表性和一般性 而且不能同时适用于 种以上实体关系另外此类 方法的召回率较低。 第三类方法是直接从大规模语料出发 通过聚类的方法来自动发现实体 关系。这类方法的优点是可以不依赖于当前的实体关系类型体系 可方便地 进行领域移植。所以 当需要在某领域建立新实体关系类型体系的情况下 该方法的结果可以作为重要的参考 缺点在于聚类的结果依赖于语料的质 5哈尔滨工业大学工学硕士学位论文 而且很多聚类的结果并没有实际意义往往还是需要进行人工筛选 有指导的方法基于特征提取以及基于核的方法是实体关系抽取领域昀流行的基于已标 注训练语料的方法。尤其是近几年来 基于核的方法被越来越多的学者研究 和使用。 基于核的方法是传统的基于特征提取的机器学习的方法的一个非常具有 吸引力的替代方案。一个在物体空间 到其相似度Kx y的映射。核函 数必须满足对称和半正定这两个条件。 核函数可以被想象成数据实例之间的相似度函数 采用非参数估计来计 算数据实例之间的核函数的方法称之为核方法。给定一系列已标注的实例 核方法可以通过使用核函数将新实例和训练数据中的已标注实例进行比较的 方法确定新实例的类别。昀近邻 NN Nearest Neighbor 和支撑向量机 SVM Support Vector Machines 是核方法的典型代表 详情可以参考 Fukunaga Vapnik的工作。 因为核函数可以在计算两个实例的相似度的过程中发现一些隐含的特征 空间 所以相对传统的特征选择方法来说 核方法的一个很大的好处就是它 可以在一个大得多的特征空间中去寻找昀佳的特征组合。 Haussler 等人提出了在离散结构 例如 字符串和树型结构 上计算核 函数的方法。随后 Lodhi 等人研究了字符串核函数在文本分类上的应用。 Zelenko 等人将实体关系实例转换成连接两个实体之间的昀小公共子 然后通过计算两个子树之间的核函数来提取实体之间的语义关系。其核函数自顶向下地将待计算的两颗子树从根节点到叶节点递归遍历并且匹配 根据其匹配的程度计算相似度。他们的方法在两个简单的实体关系抽取任务 中取得了不错的效果。 Culotta Sorensen等人在 Zelenko 等人的工作上进一步地提出了计算 依存句法树之间核函数的方法。他们的方法规定两颗树的节点必须在同一深 度并且从根节点到该节点的路径也必须完全相同。显然 这样严格的限制有 助于提高系统的准确率 ACERDR 2003 语料上大于 67 却导致了较 低的召回率 低于 35 虽然 Culotta 等人在论文中也提出并且实验了提 高召回率的方法 但是效果不明显。Bunescu Mooney等人提出了基于昀 短依存句法路径核方法。在他们的方法中 对两个实例中实体的依存句法路 6哈尔滨工业大学工学硕士学位论文 径上的相同的词的数量进行了简单的数量统计。和 Culotta Sorensen等人 的工作类似 该方法也遇到了了高准确率低召回率的问题。 基于以上研究 学者们开始考虑如何将传统的基于特征提取的机器学习 的方法与核方法结合起来。于是 混合核 Composite Kernel 方法被越来 越多得使用到了研究当中 在混合核的研究中有代表性的工作有 Zhao Shubin GrishmanZhang Ming Zhou Guodong 等人的工作。 Zhao Shubin Grishman为了将特征空间覆盖到不同的语言学特点 义了基于特征的混合核并且在 ACE RDR 2004 语料上取得了不错的效 ACERDR 2004 语料上 值达到了70 ZhangMing 等人发掘实体关系抽取中多样的结构化信息和找到昀短路 径封闭树 SPT Shortest Path enclosed Tree 定义了基于树的卷积核 CTK Convolution Tree Kernel 并且在 ACE RDR 2004 语料的 种实体关系上取得了 的效果。该方法昀大的问题在于无法获取昀短路径封闭树之外的上下文信息 而这些上下文信息对于实体关系抽取可能是非 常重要的 所以 如何在卷积核中加入合适的上下文信息就成为了下一步的 研究重点。 Zhou Guodong 等人指出基于树的卷积核以及昀短路径封闭树都是上下 文无关的。因此 他们在前人的基础上对昀短路径封闭 树进行了动态扩展 形成了 CS SPT。在动态扩展的过程中 一些必要的上下文信息或是树的路 径信息被加入 所以 原先的上下文无关的核函数就变成了上下文相关的基 ACERDR 2004 语料的 种关系上他们取得了 的成绩。其方法的缺点是只能加入有限的上下文信息而且随着上下 文信息的加入噪音信息也被加入到了昀短路径封闭树中。为了改进这一缺 Qian等人提出了一种可以动态确定 CS SPT 扩展范围的方法。其主要方 法是在树型结构上挖掘各句子组成成分内在的关系 并且有选择性地保留重 要的上下文信息。进过改进后 ACERDR 2004 语料的 无指导的方法针对 ACE RDR 任务的方法主要采用的都是有指导的方法 而这些方 法都需要像 ACE RDR 任务所提供的标注好的训练语料。由于 ACE RDR 供的语料的自身的限制如果要将实体关系抽取拓展到通用领域或者是垂直 领域使用 ACE 的语料是不够的。而有指导的方法离不开训练语料 这就需要人为标注新的、大规模的训练语料以达到对实用性的要求。标7哈尔滨工业大学工学硕士学位论文 注大规模的训练语料是一项非常耗费时间和人力的工程 而实体关系抽取已 经深入到了自然语言处理的语义层面 标注的难度相对较大。所以 近些年 越来越多的学者开始研究实体关系抽取中无指导的方法。还有一些学者展开了围绕序列模式 Sequential Pattern 学习算法的研 究。序列模式学习算法的优势在于其准确率非常高 高于90 但是召 回率相对比较低。为提高序列模式的召回率 学者们又引入了Soft pattern的 概念 即在原先序列模式每个元素都是严格匹配的基础上 对构成模板的元 素进行了泛化处理 在一定程度上提高了系统的召回率。由于很多学者利用 Web作为学习算法的语料来源 在如此大规模的网络资源上 召回率通常无 法准确计算。 Brin等人 提出了基于Bootstrapping的无指导的实体关系抽取方法。Brin 的方法需要针对某一种实体关系 例如 出生时间的实体关系种子对 例如 1893 基于实体关系种子对其方法可以自动获取 与该实体关系对应的序列模式和实例。Agichtein和Gravano 在Brin等人工作 的基础上 使用命名实体识别技术对句子进行了标注并且仅抽取命名实体之 间的关系。 Hasegawa 等人提出了基于聚类的实体关系抽取的方法。Hasegawa 等人 的方法基于相同的实体关系应该出现在相似的上下文中这一假设。所以 果将上下文信息进行聚类聚类的结果就是各种实体关系对应的上下文。 Hasegawa 等人的方法不再需要事先定义实体关系类型体系 而且也不需要 Brin 等人使用到的实体关系种子对 但是根据我们的实验 由于聚类结果 非常依赖语料的质量 其方法仅能发现少数的而且较为宽泛的实体关系 且很多聚类的结果并没有明确地表达特定的实体关系所以 该方法暂时还 无法满足实用性的要求。 Etzioni和Cafarella等人构建了著名的信息抽取系统KnowItAll。KnowItAll是 一个自动的 领域无关的信息抽取系统 它可以自动抽取WEB上的事实信 息。它的输入是类别信息 例如 “科学家”、“电影”等 其输出是属于该 类别的实体 该系统拥有着很高的准确率 也同样受到了低召回率的影响。 Rosenfeld和Feldman构建了一个基于无指导方法的关系抽取系统 URES UnsupervisedWeb Relation Extraction System 该系统同样是从实体关 系种子对出发 使用了Soft Pattern进行模板的提取和匹配 获得了很高的

  音乐领域全局实体关系抽取的研究可编辑,cad实体编辑,实体编辑 差集,实体娃娃,实体店,全局变量,实体经济,小米实体店,魅族实体店,苹果实体店

http://jubileeny.net/xianxingsuanfa/353.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有