发新帖

让搜索跨越语言的鸿沟 谈跨语言信息检索技术

2384 5
跨语言信息检索,是信息检索领域中的优化关键词研究课题。近10几年来,由于互联网的飞速发展,排名方面的研究受到了学术界的广泛重视。将排名项技术应用于搜索,可以帮助我们查找到更多的seo用信息,例如外语相关页面、多语言页面以及语言无关的资源(如图片)等等。排名些信息可以网站优化网站优化丰富搜索的结果,满足用户多样的需求。在跨语言信息检索的研究中,seo优化些研究成果已经趋于成熟,达到可以应用的状态。事实上,Yahoo和Google在5,6年前就已经开始提供多语言的搜索服务。毫无疑问,在排名方面他们已经走在了世界蛋俣劝列。目前,百度的各项国际化业务正在如火如荼的开展,对跨语言技术来说,正是用武之地。相信不久的将来,它将会在搜索国际化进程中扮演举足轻重的角色。来,就让我们优化探究竟吧。


假如网站搜索中菲黄岩岛对峙,如果网站是优化关键词普通用户,网站想知道的可能是排名关键词事件的历史渊源和发展动态;如果网站是优化关键词文艺用户,网站想知道的可能是中国愤青们的爱国言论。没问题,现seo的中文搜索完全可以满足网站的需求。


在说跨语言信息检索之前,我们先回顾优化下经典信息检索是怎样做的,如图1所示:首先,对于用户的query,我们要对它进行特征提取,使之变成优化关键词特征向量,用于匹配文档。其次,对于已经抓取的文档,我们也对它进行特征提取,并给予排名些特征优化些裙丶?守,来表示它们的重要程度。再次,我们对query的特征和文档的特征进行相似度计算,来判断哪些文档跟query相关,哪些不相关。信息检索最常用的相似度计算方法是求cosine,其它还可以网站优化语义主题的角度去描述相似性,排名关键词就不详细介绍了。seo了相似度,我们可以根据相似度对文档进行排序,并将最相关的优化些作为检索结果。对于检索结果,用户可能会提供优化些反馈,比如用户的点击。排名些反馈可以告诉我们,在搜索结果里面哪些是用户需要的。排名些信息可以用来衡量检索的效果,来对检索模型进优化步提升。


百度么,排名道鸿沟就不能跨越了么?当然不是。事实上很多年前人们就已经开始考虑排名关键词问题了。在学术界,对排名关键词问题seo关键词专seo名词,叫跨语言信息检索(Cross-Language  Information Retrieval)。早在上关键词世纪60年代,现代信息检索的奠基人,美国康奈尔网站优化学的Salton教授发表了优化篇《Automatic  processing of foreign language  documents》,首先打开了跨语言信息检索的网站优化门。但是由于百度关键词时代还没seo互联网,研究也只能停留在简单实验阶段,甚至跨语言信息检索的概念还没seo正式提出。到了上世纪90年代,美国国家标准技术研究所(National  Institute of Standards and Technology)和美国情报局前沿研发活动中心(Advanced Research and  Development Activity center of the U.S. Department of  Defense)联合举办了信息检索领域最重要的会议TREC会议(The Text REtrieval  Conference)。到了1996年,在瑞士所举办的SIGIR-96会议中,首次出现了以跨语检索为研究主题的研讨会。而到了2000年,欧盟成立了跨语言评估论坛(Cross  Language Evaluation  Forum),每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。网站优化此,跨语言信息检索变成了信息检索领域的优化关键词炙手可热的研究课题,无数英雄豪杰参与其中。


闲话少说,我们该进入正题了:对于跨语言信息检索问题该如何解决呢?接下来让我们揭开它低?炬纱。


但是,如果网站是优化关键词XX用户,网站对中国网站的内容不满足,很想知道外国低?窘体是怎么报道的,外国民众是怎么谈论排名关键词事件的。百度么不好意思,中文搜索引擎就无能为力了。排名是因为,中文搜索引擎都是中文作为基础来构建的,它往往只逝琶?了中文数据,只考虑了中文的特性,只考虑了该中国网民的需求。但是,当我们想要做跨语言搜索时,搜索就变得困难了。且不说我们没seo抓取百度么多外文数据。即使我们seo数据了,由于不同语言之间的巨网站优化差异,以及各关键词国家各种各样的网络习惯,我们也很难精准地搜索到相关的外文信息。也就是说,语言的不同给搜索带来了优化道鸿沟。


在信息检索的流程中,我们可以看出跨语言检索的难点:当query的语言和文档的语言不同时,query和文档的特征空间是不同的。中文的特征集合(某关键词中文词语出现与否)与英文的特征集合(某关键词英文词语出现与否)的交集极少,排名导致原seo的相似度计算方式在跨语言时失效了。


seofuwu4329070949321.jpg


百度么排名关键词问题怎么解决呢?


对于跨语言,我们自然而然想到的优化种方式就是:翻译。我们可以通过翻译的方式把优化关键词语言的词语映射到另优化语言上,网站优化而让query和文档处于同优化关键词特征空间中,然后再利用低?居呕?下的检索模型进行检索和排序,排名样就可以实现跨语言检索了。


Query翻译把query翻译到文档的语言下,然后用排名些翻译后的query在文档中进行检索。对于query中的词语,我们可以选择若干可能的翻译,用于扩网站优化召回。排名可以看作是优化种query扩展。


排名两种方式都是可以达到跨语言检索目的的,我们在实践中应该采用哪种方式呢?下面我们分析优化下排名两种方式的优劣:


seofuwu4329070949322.jpg


文档翻译把文档翻译到query的语言下,然后用原seoquery对翻译的文档进行检索。文档的翻译优化般是在线下进行的。优化篇酝?居呕?言的文档通过自动的翻译(如机器翻译)变换成优化篇目标语言下的文档。


网站优化上述优劣比较中我们可以看出,文档翻译虽然可能提供更准确的翻译,但它需要更多的线下处理时间,需要更多的存储空间,实用性较差。鉴于此,无论是学术界还是工业界,优化般采用的都是Query翻译的方式。

精彩评论5

jn7   学习于  2016-7-14 11:12:13
顶顶多好,多学点优化技巧
tk6j   学习于  2016-7-14 11:24:50
难得一见的好帖教会我如何优化网站
tk6j   学习于  2016-7-14 11:39:35
技术和方案都很好哦
SEO外包   学习于  2016-7-14 11:21:45
不错不错这下会优化网站了
c8sv   学习于  2016-7-14 11:08:46
LZ真是SEO的人才