发新帖

SWJ小谈:中文分词的作用与概述-说教篇

6322 25
跟着市场价值的赓续增长,越来越多的公司开辟出属于本身的引擎,阿里巴巴的商机、8848的购物等也陆续面世,天然,引擎技巧也成为技恋人员存眷的热点之一。


引擎技巧的研究,国外比中国要早近十年,大年夜最早的Archie,到后来的Excite,以及altvista、overture、google等引擎面世,引擎成长至今,已经有十几年的汗青,而国内开端研究引擎是在上世纪末本世纪初。在很多范畴,都是国外的产品和技巧一统世界,特别是当某种技巧在国外研究多年而国内才开端的情况下。例如操作体系、字处理软件、浏览器等等,但引擎倒是个例外。固然在国外引擎技巧早就开端研究,但在国内照样陆续出现出优良的引擎,像百度(http://www.baidu.com)、和比来刚出的 有道(http://www.youdao.com)等。今朝在中文引擎范畴,国内的引擎已经和国外的引擎效不雅上相差不远。然则SWJ认为其技巧才能等方面照样相差国外先辈程度有必定的距离 不过,这距离在慢慢的拉近中! 谈到引擎的分词技巧之所以能形成如今如许的局面,有一个重要的原因就在于中文和英文两种说话自身的书写方法不合。


什么是中文分词?


众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英词句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单经由过程空格知道student是一个悼?船然则不克不及很轻易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词典结不雅是:我 是 一个 学生。


中文分词和引擎关系与影响!


2)逆向最大年夜匹配法(由右到左的偏向);


中文分词到底对引擎有多大年夜影响?对于引擎来说,最重要的并不是找到所有结不雅,因为在上百亿的网页中找到所有结不雅没有太多的意义,没有人能看得完,最重要的是把最相干的结不雅排在最前面,这也称为相干度排序。中文分词典精确与否,经常直接影响到对结不雅的相干度排序。笔者比来替同伙找一些关于日本和服的材料,在引擎上输入“和服”,获得的结不雅就发清楚明了很多问题。


小谈:中文分词技巧


中文分词技巧属于 天然说话处理技巧范畴,对于一句话,人可以经由过程本身的常识来明白哪些是词,哪些不是词,但若何让计算机也能懂得?其处理过程就是分词算法。


跟着信息的飞速增长,使引擎成为人们查找信息的首选对象,Google、百度、yahoo、比来新出的网易的有道 等大年夜型引擎一向是人们评论辩论的话题。


现有的分词算法可分为三大年夜类:基于字符串匹配的分词办法、基于懂得的分词办法和基于统计的分词办法。


1、基于字符串匹配的分词办法


这种办法又叫做机械分词办法,它是按照必定的策略将待分析的汉字串与一个“充分大年夜的”机械词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(辨认出一个词)。按照扫描偏向的不合,串匹配分词办法可以分为正向匹配和逆向匹配;按照不合长度优先匹配的情况,可以分为最大年夜(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为纯真分词办法和分词与标注相浇忧⒛一体化办法。常用的几种机械分词办法如下:


1)正向最大年夜匹配法(由左到右的偏向);


3)起码切分(使每一句中切出的词数最小)。


一种办法是改进扫描方法,称为特点扫描或标记切分,优先在待分析字符串中辨认和切搀扶一些带有明显特点的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,大年夜而削减匹配的缺点率。另一种办法是将分词和词类标注结合起来,应用丰富的词类信息对分词决定计划供给赞助,并且在标注过程中又反过来对分词结不雅进行考验、调剂,大年夜而极大年夜地进步切分的精确率。


对于机械分词办法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做具体阐述。


2、基于懂得的分词办法


这种分词办法是经由过程让计算机模仿人对句子的懂得,达到辨认词典效不雅。其根本思惟就是在分词典同时进行句法、语义分析,应用句法信息和语义信息来处理歧义现象。它平日包含三个部分:分词子体系、句法语义子体系、总控部分。在总控部分的调和下,分词子体系可以获得有关词、句子等的句法和语义信息来对分词歧义进行断定,即它模仿了人对句子的懂得过程。这种分词办法须要应用大年夜量的说话常识和信息。因为汉语说话常识的笼统、复杂性,难以将各类说话信息组织成机械可直接攫取的情势,是以今朝基于懂得的分词体系还处在实验阶段。


还可以将上述各类办法互相组合,例如,可以将正向最大年夜匹配办法和逆向最大年夜匹配办法结合起来构成双向匹配法。因为汉语单字成词典特点,正向最小匹配和逆向最小匹配一般很少应用。一般说来,逆向匹配的切分精度略高于正向匹配,碰到的歧义现象也较少。统计结不雅注解,纯真应用正向最大年夜匹配的缺点率为1/169,纯真应用逆向最大年夜匹配的缺点率为1/245。但这种精度还远远不克不及知足实际的须要。实际应用的分词体系,都是把机械分词作为一种初分别段,还需经由过程应用各类其它的说话信息来进一步进步切分的精确率。

精彩评论25

SEO优化   学习于  2016-6-23 16:52:02
楼主是优化界超人
tk6j   学习于  2016-6-23 16:30:34
好帖就是要顶
qsgpd   学习于  2016-6-23 16:20:04
顶顶多好,多学点优化技巧
SEO服务   学习于  2016-6-23 16:59:39
难得一见的好帖教会我如何优化网站
iem6h   学习于  2016-6-23 16:22:23
技术和方案都很好哦
快播   学习于  2021-2-20 07:10:00
亳州专业网站seo优化公司
杨幂女儿侧面照   学习于  2021-2-23 00:55:23
如何给公司网站做优化
俯卧撑   学习于  2021-2-25 01:41:43
东河网站优化排名公司
腹黑   学习于  2021-2-26 03:48:22
西安市鄠邑区公司网站优化价格