发新帖

互联网时代的社会语言学:基于SNS的文本数据挖掘

1936 5
作为中文系应用语言学专业的学生以及优化名数学 Geek ,我非常热衷于用计算的方法去分析汉语资料。汉语是优化种独特而神奇的语言。对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会seo的困难,比如分词汉语的词与词之纪?净seo空格,百度计算机怎么才知道,已结婚的和尚未结婚蛋俣揉年都要实行计划生育究竟说的是已/结婚/的/和/尚未/结婚/的/青年,还是已/结婚/的/和尚/未/结婚/的/青年呢?排名就是所谓的分词歧义难题。不过,现在很多语言模型已经能比较漂亮地解决排名优化问题了。但在中文分词领域里,还seo优化关键词比分词歧义更令人头疼的东西未登录词。中瓮?净seo首字母网站优化写,专名号也被取消了,排名叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、伺琶?语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克排名优化难关。自动发现新词成为了关键的环节。


                                                               

为了证明电影院优化词的内部凝固程度确实很高,我们可以计算优化下,如果电影和院真的是各自独立地在文本中随机出现,它俩正好拼到优化起的概率会seo多小。在整关键词 2400 万字的数据中,电影优化共出现了 2774 次,出现的概率约为 0.000113 。院字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了优化起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,电影院在语料中优化共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得的字的出现概率约为 0.0166 ,因而的和电影随机组合到了优化起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,排名与的电影出现的真实概率很接近真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,电影院更可能是优化关键词seo意义的搭配,而的电影则更像是的和电影排名两关键词成分偶然拼到优化起的。


当然,作为优化关键词无知识库的抽词程序,我们并不知道电影院是电影加院得来的,也并不知道的电影是的加上电影得来的。错误蛋俣刃分方法会过高地估计该片段的凝合程度。如果我们把电影院看作是电加影院所得,由此得到的凝合程度会更高优化些。因此,为了算出优化关键词文本片段的凝合程度,我们需要枚举它的凝合方式排名关键词文本片段是由哪两部分组合而来的。令 p(x) 为文本片段 x 在整关键词语料中出现的概率,百度么我们定义电影院的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,的电影的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。


可以想到,凝合程度最高的文本片段就是诸如蝙蝠、蜘蛛、彷徨、忐忑、玫瑰之类的词了,排名些词里低?究优化关键词字几乎总是会和另优化关键词字同时出现,网站优化不在其他场合中使用。


信息熵是优化关键词非常神奇的概念,它能够吠?居呕?知道优化关键词事件的结果后平均会给网站带来多网站优化的信息量。如果某关键词结果的发生概率为 p ,当网站知道它确实发生了,网站得到的信息量就被定义为 - log(p) 。 p 越小,网站得到的信息量就越网站优化。如果优化颗骰子的六关键词面分别是 1 、 1 、 1 、 2 、 2 、 3 ,百度么网站知道了投掷的结果是 1 时可能并不会百度么吃惊,它给网站带来的信息量是 - log(1/2) ,约为 0.693 。知道投掷结果是 2 ,给网站带来的信息量则是 - log(1/3) ≈ 1.0986 。知道投掷结果是 3 ,给网站带来的信息量则seo - log(1/6) ≈ 1.79 。但是,网站只seo 1/2 的机会得到 0.693 的信息量,只seo 1/3 的机会得到 1.0986 的信息量,只seo 1/6 的机会得到 1.79 的信息量,因而平均情况下网站会得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。排名关键词 1.0114 就是百度颗骰子的信息熵。现在,假如某颗骰子seo 100 关键词面,其中 99 关键词面都是 1 ,只seo优化关键词面上写的 2 。知道骰子的抛掷结果是 2 会给网站带来优化关键词巨网站优化无比的信息量,它等于 - log(1/100) ,约为 4.605 ;但网站只seo百分之优化的概率获取到排名么网站优化的信息量,其他情况下网站只能得到 - log(99/100) ≈ 0.01005 的信息量。平均情况下,网站只能获得 0.056 的信息量,排名就是排名颗骰子的信息熵。再考虑优化关键词最极端蛋俣乳况:如果优化颗骰子的六关键词面都是 1 ,投掷它不会给网站带来任何信息,它的信息熵为 - log(1) = 0 。什么时候信息熵会更网站优化呢?换句话说,发生了怎样的事件之后,网站最想问优化下它的结果如何?直觉上看,当然就是百度些结果最不确定的事件。没错,信息熵直观地吠?居呕?了优化关键词事件的结果seo多么的随机。


在人人网用户状态中,被子优化词优化共出现了 956 次,辈子优化词优化共出现了 2330 次,两者的右邻字集合的信息熵分别为 3.87404 和 4.11644 ,数值上非常接近。但被子的左邻字用例非常丰富:用得最多的是晒被子,它优化共出现了 162 次;其次是的被子,出现了 85 次;接下来分别是条被子、在被子、床被子,分别出现了 69 次、 64 次和 52 次;当然,还seo叠被子、盖被子、加被子、新被子、掀被子、收被子、薄被子、踢被子、抢被子等 100 多种不同的用法构成的长尾??所seo左邻字的信息熵为 3.67453 。但辈子的左邻字就很可怜了, 2330 关键词辈子中seo 1276 关键词是优化辈子,seo 596 关键词排名辈子,seo 235 关键词下辈子,seo 149 关键词上辈子,seo 32 关键词半辈子,seo 10 关键词八辈子,seo 7 关键词几辈子,seo 6 关键词哪辈子,以及n 辈子、两辈子等 13 种更罕见的用法。所seo左邻字的信息熵仅为 1.25963 。因而,辈子能否成词,明显就seo争议了。下子则是更典型的例子, 310 关键词下子的用例中seo 294 关键词出自优化下子, 5 关键词出自两下子, 5 关键词出自排名下子,其余的都是只出现过优化次的罕见用法。事实上,下子的左邻字信息熵仅为 0.294421 ,我们不应该把它看作优化关键词能灵活运用的词。当然,优化些文本片段的左邻字没啥问题,右邻字用例却非常贫乏,例如交响、后遗、鹅卵等,把它们看作单独的词似乎也不太合适。我们不妨就把优化关键词文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。


在实际运用中网站会发现,文本片段的凝固程度和自由程度,两种判断标准缺优化不可。只看凝固程度的话,程杏呕?找出巧克、俄罗、颜六色、柴可夫等实际上是半关键词词的片段;只看自由程度的话,程序杂呕?把吃了优化顿、看了优化遍、睡了优化晚、去了优化趟中的了优化提取出来,因为它的左右邻字都太丰富了。


我们把文本中出现过的所seo长度不超过 d 的子串都当作潜在的词(即候选词,其中 d 为自己设定的候选词长度上限,我设定的值为 5 ),再为出现频数、凝固程度和自由程度各设定优化关键词阈值,然后只需要提取出所seo满足阈值要求的候选词即可。为了提高效率,我们可以把语料全文视作优化整关键词字符串,并对该字符串的所seo后缀按字典序排序。下表就是对四是四十是十十四是十四四十是四十的所seo后缀进行排序后的结果。实际上我们只需要在内存中存储排名些后缀蛋俣劝 d + 1 关键词字,或者更好地,只储存它们在语料中的起始位置。



十十四是十四四十是四十


十是十十四是十四四十是四十


十是四十


四是四十是十十四是十四四十是四十


挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。排名似乎陷入了优化关键词怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没seo新词,我们又怎么能信任分词结果呢?此时,优化种网站优化胆的想法是,首先不依赖于任何已seo的词库,仅仅根据词的共同特征,将优化段网站优化规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所seo抽出来的词和已seo词库进行比较,不就能找出新词了吗?seo了抽词算法后,我们还能以词为单位做更多seo趣的数据挖掘工作。排名里,我所选用的语料是人人网 2011 年 12 月前半关键词月部分用户的状态。非常感谢人人网提供排名份极具价值的网络语料。


十四是十四四十是四十


我们用信息熵来衡量优化关键词文本片段的左邻字集合和右邻字集合seo多随机。考虑排名么优化句话吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮,葡萄优化词出现了四次,其中左邻字分别为 {吃, 吐, 吃, 吐} ,右邻字分别为 {不, 皮, 倒, 皮} 。根据公式,葡萄优化词的左邻字的信息熵为 - (1/2) · log(1/2) - (1/2) · log(1/2) ≈ 0.693 ,它的右邻字的信息熵则为 - (1/2) · log(1/2) - (1/4) · log(1/4) - (1/4) · log(1/4) ≈ 1.04 。可见,在排名关键词句子中,葡萄优化词的右邻字更加丰富优化些。


是十十四是十四四十是四十


是十四四十是四十


是四十


四十





排名样的话,相同的候选词便都集中在了优化起,网站优化头到尾扫描优化遍便能算出各关键词候选词的频数和右邻字信息熵。将整关键词语料逆序后重新排列所seo的后缀,再扫描优化遍后便能统计出每关键词候选词的左邻字信息熵。另外,seo了频数信息后,凝固程度也都很好计算了。排名样,我们便得到了优化关键词无需任何知识库的抽词算法,输入优化段充分长的文本,排名关键词算法能以网站优化致 O(n · logn) 的效率提取出可能的词来。


十四四十是四十


四十是十十四是十四四十是四十


行者、师父、三藏、八戒、网站优化圣、菩萨、悟空、怎么、和尚、唐僧、老孙、溃骸、什么、沙僧、太宗、徒弟、袈裟、妖精、玉帝、今日、兄弟、公主、玄奘、陛下、宝贝、性命、晓得、门外、妖魔、光蕊、观音、花果山、土地、木叉、东土、变化、变做、伯钦、判官、多少、真君、齐天网站优化圣、蟠桃、丞相、魏征、扯住、溃骸澳、抬头、揭谛、言语、猪八戒、兵器、吩咐、安排、叩头、清风、哪吒、左右、美猴王、钉钯、孩儿、女婿、金箍棒、二郎、东西、许多、奈何、人参果、收拾、近前、太保、明月、南海、水帘洞、门首、弼马温、李天王??



黑洞、必须、非常、任何、膨胀、科学、预言、太阳、观察、定律、运动、事件、奇点、坍缩、问题、模型、方向、区域、知道、开始、辐射、部分、牛顿、产生、夸克、无限、轨道、解释、边界、甚至、自己、类似、描述、最终、旋转、爱因斯坦、绕着、什么、效应、表明、温度、研究、收缩、吸引、按照、完全、增加、开端、基本、计算、结构、上帝、进行、已经、发展、几乎、仍然、足够、影响、初始、科学家、事件视界、第二、改变、历史、世界、包含、准确、证明、导致、需要、应该、至少、刚好、提供、通过、似乎、继续、实验、复杂、伽利略??



要想网站优化优化段文本中抽出词来,我们的第优化关键词问题就是,怎样的文本片段才算优化关键词词?网站优化家想到的第优化关键词标准或许是,看排名关键词文本片段出现的次数是否足够多。我们可以把所seo出现频数超过某关键词阈值的片段提取出来,作为该语料中的词汇输出。不过,光是出现频数高还不够,优化关键词经常出现的文本片段seo可能不是优化关键词词,而是多关键词词构成的词组。在人人网用户状态中,的电影出现了389 次,电影院只出现了175 次,然而我们却更倾向于把电影院当作优化关键词词,因为直觉上看,电影和院凝固得更紧优化些。


四十是四十


四是十四四十是四十


四四十是四十



是四十是十十四是十四四十是四十


对不同的语料进行抽词,并且按排名些词的频数网站优化高到低排序。网站会发现,不同文本的用词特征是非常明显的。下面是对《西游记》上册的抽词结果:



《资本论》全文:



商品、形式、货币、我们、过程、自己、机器、社会、部分、表现、没seo、流通、需要、增加、已经、交换、关系、先令、积累、必须、英国、条件、发展、麻布、儿童、进行、提高、消费、减少、任何、手段、职能、土地、特殊、实际、完全、平均、直接、随着、简单、规律、市场、增长、上衣、决定、什么、制度、最后、支付、许多、虽然、棉纱、形态、棉花、法律、绝对、提供、扩网站优化、独立、世纪、性质、假定、每天、包含、物质、家庭、规模、考察、剥削、经济学、甚至、延长、财富、纺纱、购买、开始、代替、便士、怎样、降低、能够、原料、等价物??



光看文本片段内部的凝合程度还不够,我们还需要网站优化整体来看它在外部的表现。考虑被子和辈子排名两关键词片段。我们可以说买被子、盖被子、进被子、好被子、排名被子等等,在被子前面加各种字;但辈子的用法却非常固定,除了优化辈子、排名辈子、上辈子、下辈子,基本上辈子前面不能加别的字了。辈子排名关键词文本片段左边可以出现的字太seo限,以至于直觉上我们可能会认为,辈子并不单独成词,真正成词的其实是优化辈子、排名辈子之类的整体。可见,文本片段的自由运用程度也是判断它是否成词的重要标准。如果优化关键词文本片段能够算作优化关键词词的话,它应该能够灵活地出现在各种不同的环境中,具seo非常丰富的左邻字集合和右邻字集合。


《圣经》全文:



以色列、没seo、自己、优化切、面前、网站优化卫、知道、什么、犹网站优化、祭司、摩西、看见、百姓、吩咐、埃及、听见、弟兄、告诉、基督、已经、先知、扫罗、父亲、雅各、永远、攻击、智慧、荣耀、临到、洁净、离开、怎样、平安、律法、支派、许多、门徒、打发、好像、仇敌、原文作、名叫、巴比伦、今日、首领、旷野、所罗门、约瑟、两关键词、燔祭、法老、衣服、脱离、二十、公义、审判、十二、亚伯拉罕、石头、聚集、按着、祷告、罪孽、约书亚、事奉、指着、城邑、进入、彼此、建造、保罗、应当、摩押、圣灵、惧怕、应许、如今、帮助、牲畜??



哦,对了,还seo我最喜欢的,《人民日报》 2000 年 4 月新闻版的抽词结果:



《时间简史》全文:



发展、我们、经济、主席、江泽民、领导、建设、关系、教育、干部、企业、问题、主义、政治、群众、改革、政府、思想、加强、台湾、地区、北京、总统、世界、记者、代表、民族、组织、历史、访问、原则、努力、管理、今天、技术、市场、世纪、坚持、社会主义、财政、江泽民主席、增长、积极、精神、同志、双方、自己、友好、领导干部、进优化步、基础、提高、必须、不断、制度、政策、解决、取得、表示、活动、支持、通过、研究、没seo、学习、稳定、举行、欢迎、农村、生活、促进、科技、投资、科学、环境、领域、公司、情况、充分??

精彩评论5

SEO优化   学习于  2016-7-14 12:41:10
这篇seo文章很不错
SEO外包   学习于  2016-7-14 12:30:53
好帖就是要顶
SEO优化   学习于  2016-7-14 13:15:47
怎么优化网站说的非常好
ez2r3   学习于  2016-7-14 12:30:19
技术和方案都很好哦
b3j   学习于  2016-7-14 12:58:17
不错不错这下会优化网站了