发新帖

seo如何做好分词技术?如何分词能够满足搜索引擎?

2149 20
  什么是百度分词?SEO是否有接触一些分词组件呢?从百度分词不难看出,分词是根据词义、词语、词频的方式,来决定搜索引擎对词语的捕捉。分词技术是搜索引擎对用户提交的关键词进行处理以后,根据用户的关键词串进行匹配的一种技术。虽然谷歌是这种技术的创始者,但由于中文比英文复杂得多,所以中文分词这方面还是百度领先。
  中文分词一般为:字符串匹配、统计分词、词义分词。
  第一种:字符串匹配分词
  这种分词技术又称之为机械分词方法,直白说就是扫描字符串,查询页面中字符串的子串和词相同,则视为匹配,该类分词一般会加入启发式规则,例如:正向/逆向最大化匹配、长词优化等方法。
  优势:匹配速度快,实现过程简单
  劣势:难以区分歧义词,匹配不精准
  案例:庖丁解牛分词器就是基于字符串匹配的分词
  例子:成都网络推广公司
  “成都、成都网、推广、公司”“成都、推广网、公司”
  正向最大值匹配:把关键词从左到右进行匹配
  逆向最大值匹配:把关键词从右到左进行匹配
  最短路径分词法:搜索引擎提取文中词数最小值
  SEO关键词分词技术
keywords.jpg
  第二种:统计分词
  这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。 在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
  优点:很好处理歧义和未登录词问题,效果比基于字符串匹配效果好
  缺点:需要大量的人工标注数据,较慢的分词速度
  相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。
  可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。
  第三种:词义分词
  词义分词法:通过机器语音判定的分词方法,主要用以处理歧义现象。

精彩评论20

嫩模   学习于  2021-2-20 14:28:08
广州天河网站优化公司
晋济高速事故   学习于  2021-2-21 03:55:54
浑源网站排名优化公司
幸福爱人   学习于  2021-2-25 10:14:25
财务公司网站怎么做好优化
基友   学习于  2021-2-27 07:20:25
石家庄云无限网站优化公司
美丽说   学习于  2021-2-28 19:14:31
网站优化自己做还是找外包公司
齐秦老婆   学习于  2021-3-1 21:05:18
教程网站关键词优化公司
么么哒   学习于  2021-3-2 09:25:26
东丽网站优化公司
潜江劫持   学习于  2021-3-3 08:23:23
长春公司网站优化价格
天猫   学习于  2021-3-4 11:51:50
谷歌网站优化公司程序揭幕