您好、欢迎来到现金彩票网!
当前位置:双彩网 > 线性文法 >

统计自然语言处理(统计推理:稀疏数据集上的n元语法模型)

发布时间:2019-07-01 05:43 来源:未知 编辑:admin

  统计自然语言处理的目的就是针对自然语言领域进行统计推理。作为一个常用的统计估计的例子,我们将考察经典建模问题,即当前词预测下一个词。词汇预测任务是一项技术可以解决的简单明了的问题。

  利用历史词汇预测词汇,我们构造这样一个模型。模型中所有历史都是前n-1个已经出现的词,那么我们就有一个(n-1)阶马尔可夫模型,或者称N元语法模型。随着n的增加和词表数量的增加,我们把数据划分到太多的类别中,有大量的参数要去估计。所以有一些方法如“词干化”来减小词语表数量,使用2-3元语言模型来预测等。另外还有很多模型能比较好的进行预测,比如我们可以想象如果我们知道句子的主谓宾等一节结构,我们可以基于谓语来识别下一个词。但这里只介绍n元语法模型。

  对于n元语法模型的例子,我们感兴趣的是概率P(w1…wn) 和预测任务P(wn w1….wn-1)

  这个里面存在的问题就是,对于没有出现的n元组,我们统统给了0概率,这个问题是普遍存在的,没有如此大的一个数据集能让我们满足不出现稀疏的情况。虽然有些办法试图去解决这个问题,比如我们动态调整n的大小,然后在超大的数据集上去跑。但是终究这些方法是不完备的。我们需要尝试平滑的去处理那些没有在历史中出现的情况,并且给这些情况赋予一定的概率。

  这种处理方式常常被非正式的称为加1法,它把一小部分概率有效地转移到了未知事件上。这里的假设是有统一的先验证概率(每个n元组都有相同的可能性),事实上就是一个贝叶斯估计。(个人觉得这个假设不太成立,但是这是一种平滑的方法吧)

  这些方法有一些缺点,如在预测句子中概率都被打了折扣(我认为相对比较而言,这个折扣关系不是那么大)。并且结果证明“差的上下文不如没有”。这里可能是平滑时,将0概率比低出现的更大,导致了这种情况。这种建模是可以对概率估计进行排序的。下面放一张图解释一下相对性问题。证明该建模概率折扣与相对有效性。

  这里的留存估计与机器学习中讨论的比较接近,是一种自我验证的方法,一定程度上防止训练或者决策的过拟合。书中介绍了讲训练集划分成两部分的方法,也介绍了交叉验证法。Leaving-one-Out的方法应该就是我们机器学习中常用的N折叠法。这里就不再描述。

  Good根据图灵机原理提出了一种确定时间频率或者概率估计的方法,假设事件是二项分布的。这种方法适用于从大此表得来的大量数据观察,而且,尽管词汇和n-gram不服从二项式分布。(因为概率论没学太好,不太能直观体会到不同分布的感觉-_-!),该方法利用了一个调整后的频率,参见如下。

  这里具体的算法本人理解不是很透彻,但是大致思路是这样,这些方法都重新归一化了所有的概率估计,以确保得到合理的概率分布结果。比如我们调整转移到未知事件上的概率大小,或者很好的方法似乎是保持转移到未知事件上的概率N1/N不变,并且重新归一化所有的已知事件的概率估计。(Gale and Sampson 1995提出)

  为了处理空类或者说是数据集中不存在的元组,我们采用折扣的的方法将频率增益均分到未知事件上,然后有几种均分方案

  对于n-gram模型来说,找到合适的组合不同阶模型的方法是成功的关键。一种合并不同n值的MLE n-gram估计(对于未知词有一定的概率转移)的方法使用了简单的线性插值技术,得出了一个非常好的语言模型。

  解决trigram模型中稀疏问题的一种方法是,把bigram模型和unigram模型组合到trigram模型中,这两个模型容忍稀疏数据问题的能力比较强。

  当没有n-gram时,回退到低阶的模型。同时这里也是需要注意,需要讲概率转移到未知词语上。

  1.NLP的一些基本概念和问题计算机如何处理自然语言?理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则,就能学会人的语言处理能力。经验主...博文来自:viewcode的专栏

  一、n元模型1.语言建模:根据给定的语言样本估计概率P(s)的过程2.语言模型:根据语言样本估计出的概率分布P称为语言L的语言模型。3.马尔科夫假设:词wi的出现只与其前n-1个词有关4.n元组(n-...博文来自:kangyucheng的专栏

  稀疏数据和嵌入简介学习目标:将影评字符串数据转换为稀疏特征矢量 使用稀疏特征矢量实现情感分析线性模型 通过将数据投射到二维空间的嵌入来实现情感分析DNN模型 将嵌入可视化,以便查看模型学到的词语之间的...博文来自:latioas的博客

  推荐系统数据稀疏性问题对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线万人访问淘...博文来自:s1162276945的博客

  统计自然语言处理系列文章介绍             李亚超 2010-10-28     这段时间(以后可能从事这方面的工作)由于工作的需要,需要对统计自然语言理解做详细的学习。关于这...博文来自:Harry的专栏

  语言模型    对于很多自然语言处理领域的问题,比如机器翻译,处理要确定预测结果中的字词集合以外,还有一个非常重要的方面就是要评估文本序列是否符合人类使用的习惯。也就是要判断文本是否通顺、自然、甚至在...博文来自:u010899985的博客

  自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的...博文来自:meihao5的博客

  人类对机器理解语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,...博文来自:伐木场的博客

  语言模型定义 语言模型用来构建字符串s的概率分布,即一个句子出现的概率。考虑句子中词语的联系,其句子出现的概率计算公式可以表示为:认为第i个词出现的概率是由前面i-1个历史词决定的,这里使用频率来估...博文来自:Torero_lch的博客

  语言模型是干嘛的?语言模型可以计算任何句子的概率。例如,“Iloveyou”的概率是多少?用数学语言表述,NN元语言模型(NN-grammodel)根据一个词语的前N−1N-1个词语,来计算这个词语的...博文来自:WUTab的博客

  问题:通过对文本中的信息分析,找到文章对应的作者用到的算法模型:SVM,支持向量机。                SVM可以简单看着一种二类分类器(画一条线,使两边类别的点到线的距离最大化),扩展后...博文来自:ypgsh的博客

  在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些数据分布得到一些推论,大家想一想,我们在...博文来自:weixin_33973609的博客

  一、稀疏数据      在数据库中,稀疏数据是指在二维表中含有大量空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可...博文来自:人机与认知实验室

  11.特征选择和稀疏学习11.1子集搜索与评价对象都有很多属性来描述,属性也称为特征(feature),用于刻画对象的某一个特性。对一个学习任务而言,有些属性是关键有用的,而有些属性则可能不必要纳入训...博文来自:专注于数据挖掘算法研究和应用

  在做项目时我遇到了这样的一个问题: 财务给我们的数据并不是每天都有的,由于财务人员并不是每天都记账,造成数据不是连续性。例如:“应收账款”表中的数据为。2012年1月1日有数据;然后就到2012年3月...博文来自:cuixiuqin1954的专栏

  语言模型在统计自然语言处理中语言模型是很重要的一块,常用的语言模型是n元语法模型,当然现在比较流行的还有神经网络语言模型。n元语法模型需要额外的平滑处理,而神经网络语言模型则不必,它自带平滑效果。n元...博文来自:seaboat——a free boat on the sea.(公众号:远洋号)

  统计自然语言处理—N元语法模型简述一、N元语法的引出问题1:在一段文本中,如何计算某个句子出现的概率?问题2:对于某个规模大小为L的词表而言,某个词w~i~的历史可能出现的情况有L^i-1^大小,如何...博文来自:hei653779919的博客

  1.1基本概念当我们从事任何一项研究的时候,总是要关注两方面的问题:一是是什么,为什么?二是做什么,怎么做?这恰恰是科学与技术紧密相关的两个方面。自然语言处理既是一项技术,又是一门学科。信息的...博文来自:秋水顽石

  统计概率模型1、高斯判别分析2、朴素贝叶斯3、隐马尔可夫模型4、最大熵马尔科夫模型5,条件随机场6,马尔科夫决策过程五、条件随机场​条件随机场是一个概率图模型,深入图模型的话实在有太多东西。这里,我们...博文来自:myazi

  二元语法模型也就是一阶马尔科夫链,更通俗的说法是:一个词出现与否,仅有它前面一个词有关。举个例子:P(成结合)*P(结合)P(合成结)*P(结)表示“结合成”分词为“结合成”的概率要大于分...博文来自:

  第四章N-gram模型:用前面的N-1个词去预测第N个词的概率的模型。并且这种预测第N个词的模型。N指的是句子中的连续N个词。最终显示他与预测一系列词出现的概率相似。4.2simple(unsmoot...博文来自:u010995990的博客

  作者:JasonBrownlee翻译:梁傅淇本文长度为1500字,建议阅读3分钟本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。在...博文来自:数据派THU

  目的1.了解什么马尔科夫模型的三个问题·状态概率的计算(前向算法)·马尔科夫译码过程(维特比算法)·马尔科夫参数求解(EM算法前后向算法)隐马尔科夫模型(HMM)这里笔者假设大家大致了解马尔科夫模型,...博文来自:continueOo的博客

  一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率。例如,在一个人所说的线个句子里面大约有一句是Okay,则可以认为p(Okay)约等于...博文来自:BlowfishKing的博客

  终于把书看到传说中重要的第六章了。。。看完第六章开始后悔之前花那么多时间看前四章内容了。。看了也忘掉了。。什么困惑度啊什么的一堆概念还是要翻一翻。。之前总怕不仔细看后面的看不懂。。结果重要的第五章第六...博文来自:felicitia的专栏

  n元语法模型在这里不进行介绍,大家可以根据这两篇博客了解下:关于N-Gram模型或者自然语言处理中的N-Gram。写这篇博客主要是要用到OpenNLP中的ngram模型(我用的opennlp-tool...博文来自:u011407081的博客

  最大概率分词中,认为每个词的概率都是独立的,但是有一部分词,其切分却与前一个词密切相关,特别是中文分词中更为明显,英文中就是如上一篇文章中的“tositdown”的例子。     这样就可以使用2元模...博文来自:wangliang_f的专栏

  在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram一元分词,把句子分成一个一个的汉字bigram二元分词,把句子从头到尾每两个字组成一个...博文来自:IT届的小学生

  统计自然语言处理的目的就是针对自然语言领域进行统计推理。统计推理就是在统计概率的基础上进行预测,包括:1、数据处理,从而获得未知的概率分布;2、根据这些数据概率分布得到一些推论,并用于将来的预测。为了...博文来自:Kikim的地盘

  进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。一、概述        对于不同的语言单位,语言分析的任务各不相同:在词的层次上,语义分析的基本任务是进行词义消歧;在句子层面上,语...博文来自:alihonglong的专栏

  自然语言处理专业英语    学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发...博文来自:学经世致用之学,练锤炼仕艺之术

  参考:数据稀疏的解释:假设词表中有20000个词,如果是bigrammodel(二元模...博文来自:m0_37870649的博客

  文本表示文本表示有向量空间模型,词组表示法,概念表示法目前文本通常采用向量空间模型表示...博文来自:春去秋来情不归

  1、统计机器翻译三要素1、翻译模型2、语言模型3、排序模型2、翻译流程1、双语数据预处理2、词对齐3、构造短语翻译表4、对短语翻译表进行概率估计5、解码,beamsearch6、评估...博文来自:谦芊珺

  1概述汉语自动分词是把没有明显分界标志的字串切分为词串。包括:标点符号、数字、数学符号、各种标记、人名、地名、机构名等未登录词的识别。本篇博客使用Python编程语言实现基于概率最大化的中文分词算法。...博文来自:Chase1998的博客

  前言要想从本质上深入理解自然语言处理、机器学习以及深度学习等算法,就需要你有强硬的数学基础,从原理到实践,知根知底。在此,我们只是一个入门级,所以我们暂且掌握以下数学基础,就ok。概率论基础概率...博文来自:秋水顽石

  知识点:伯努利分布、二项式分布、多项式分布、先验概率,后验概率,共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布,伽马函数、分布一,伯努利分布(bernoulidistribution)又...博文来自:tzl2093的博客

  信息是个相当宽泛的概念,很难用一个简单的定义将其完全准确的把握。然而,对于任何一个概率分布,可以定义一个称为熵(entropy)的量,它具有许多特性符合度量信息的直观要求。这个概念可以推广到互信息(m...博文来自:Shingle_的博客

  那年的笔试面试题,面试经验总结和干货发放博文来自:Mingrenjiuwei的博客

  jquery/js实现一个网页同时调用多个倒计时(最新的)nn最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!nnnn//jsn...博文来自:Websites

  最近在EasyDarwin开源群里,有不少用户私信需求,要做一种能够多端同屏的系统,细分下来有屏幕采集端和同屏端,屏幕采集端细想也就是一个低延时的流媒体音视频服务器,同屏端也就是一个低延时的播放器,负...博文来自:Babosa的专栏

  扫二维码关注,获取更多技术分享nnn 本文承接之前发布的博客《 微信支付V3微信公众号支付PHP教程/thinkPHP5公众号支付》必须阅读上篇文章后才可以阅读这篇文章。由于最近一段时间工作比较忙,...博文来自:Marswill

  最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗!nnDocker的三大核心概念:镜像、容器、仓库n镜像:类似虚拟机的镜像、用俗话说就是安装文件。n容器:类似一个轻量...博文来自:我走小路的博客

  webService学习(二)—— 调用自定义对象参数rn本文主要内容:rn1、如何通过idea进行webService Client的简单实现(不再使用wsimport的方式,其实是ide帮我们做了...博文来自:止水的专栏

  maker一下自己捣鼓的商品详情页,主要是选择商品类型的交互和样式,点击不同类型切换图片和文字,商品增加减少,还有商品预览图片(本地图片无法预览!!!)。。源码下载:博文来自:dKnightL的博客

http://jubileeny.net/xianxingwenfa/239.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有