发新帖

AlphaGo、深度学习及SEO

2279 5
1月28号,Nature杂志报道,Google旗下公司DeepMind(以前收购的)开辟的一款名为 AlphaGo的人工智能,在2015年10月份以5:0克服欧洲围棋冠军,老职业二段樊麾。一石激起千层浪,人工智能最难克服仁攀类的最后一个游戏,掉守了,人工智能已经达到职业围棋程度了。


一时光,深度进修、机械进修、AlphaGo、神经收集等等这些概念粕固ㄇ地。Google不是搜刮引擎吗?这些器械和搜刮,和搜刮引擎优化有什么关系?说说我的懂得。


先声明一下,下面涉及的深度进修等概念,很可能我的懂得和表述是异常粗浅的,甚至是缺点的。固然我也是理工出身的,所学专业听起来还挺艰深,微波与电磁场,但那是25年前的事啦。如今看技巧内容只能稀里糊涂懂得个大年夜概了。想懂得精确细节的读者,照样网上搜一下比较保险。


什么是深度进修?


深度进修(deep learning)是机械进修的(machine learning)一个分支范畴。


独裁人工神经收集(artificial neural networks)模仿接近了人脑处理信息时大年夜低层到高层赓续抽象化的过程。深度进修恰是将低层特点分层抽象化为高层特点表达,本来的目标就是模仿独裁神经收集。神经收集研究几十年了,沉寂了一段时光,近几年深度进修才又发掘出其潜力。


深度进修的一个重要特点是,它不须要人工输入或标注特点,而是经由过程海量数据主动进修特点,也就是所谓无监督进修(unsupervised learning)。所以大年夜数据和深度进修也结合在一路。


深度学惯用在搜刮引擎上是个什么情况?


以前经典的搜刮排名算法是由工程师选择用哪些页面特点(也就是排名身分)来排名,各个特点占若干权重,这些都是工程师决定并写在法度榜样里的,然后测试效不雅,再修改。


Google、Facebook、百度在深度进修范畴都有很多进展,尤其是在人脸辨认、图像辨认、语音辨认、翻译等方面。这方面报道挺多的。


                                                               
以深度进修为基本的排名算法完全不是这么个过程。深度进修的办法是,用大年夜量数据对法度榜样进行练习,由法度榜样本身进修应当用哪些特点来排名。换句话说,告诉深度进修排名算法,这些已知页面是高质量的,那些已知页面是低质量的,那到底高质量页面应当有什么特点呢?也就是面对新页面时该用哪些特点来排名?各类特点占多大年夜比重?让算法本身揣摩去。


这些进修数据哪里来的?两个明显的来源可能是:


1)Google现有经典算法做测试时的数据。搜刮引擎正式上线新算法前都邑做测试的,给部分用户返回新算法结不雅,然后监测点击率、彪炳率、逗留时光、页面互动性、转化率、变换萌芽词率等数据,以断定新算法有效性。


2)Google有不少人工质量评估员,并且老早就有,他们会评测特定页面是高质量照样低质量。这些评估数据不直接影响所评估页面的排名,但会显示出算法有效性。这些数据的确就是现成的深度进修练习数据。客岁11月Google方才公开了最新版本的人工质量评估指南 ,建议大年夜家下载来看看。


如今问题来了,这种办法靠谱吗?


如前所述,深度进修算法就是个黑箱啊,完全不消人工告诉它找什么特点,而是它本身进修该找什么特点,会找出什么特点谁也不知道,有些特点可能仁攀类压根儿不会想到。很可能今后搜刮引擎工程师也不知道排名身分有哪些了,也不知道一个页面为什么会有好的排名。再想一遍:连搜刮引擎工程师也不知道排名身分是什么。这和我们的常识、直觉是不是都有相当冲突了呢?


这么整,能行吗?


事实恰好注解,能行。AlphaGo能克服围棋职业二段,乍看起来,职业二段离仁攀类顶尖高手还有很大年夜差距。可换个角度想,这世界上能达到职业二段的仁攀类有几个?记得前些天看报道,能赢职业二段的仁攀类不跨越1千个。


这种程度,可以快活地完虐我们几十亿人。我打了5,6年羽毛球,我前几天方才9岁的女儿,在经由4个月每周一次的业余练习后,我要赢她必须很卖力费劲了。这只是新加坡,只是一个业余锻练,每周两个小时,我无法想象,我们通俗爱好者与职业程度的差距那是有多大年夜。


深度进修另一个特点是与具体范畴无关(domain independent),既可以用在围棋,也可以用在搜刮或其他方面。所以才会有这篇帖子。


站长、搜刮引擎优化们,少嗣魅这世界上大年夜概得有个几百万吧?所以我们就是通俗人。如今告诉我们,断定我们页面质量的算法,其断定力今朝是所有仁攀类的前1千名,岁尾可能是所有仁攀类前10名。这是什么感到?这是有点掉望的感到--就别想着钻空子啦。


也许熊猫更新 或企鹅更新就用了深度进修?


深度进修真的有这么厉害吗?


2012年,Google Brain项目应用大年夜量图片对神经收集进行练习,体系经由练习后能辨别出:这是一只猫。重要的是,没有输入猫长什么样这类信息,是体系本身“融合”了猫这个概念。


2015年,深度进修算法的人脸辨认率达到了99.47%,甚至跨越了人眼。


其实深度进修近两年已经取得不少页堪不敢想象的成就。


AlphaGo将在3月份挑衅韩国九段、世界冠军李世石。固然我根本不懂围棋,但乐不雅猜测一下吧,我认为AlphaGo会赢。原因是,半年以前了,AlphaGo的练习量又增长了几切切局棋谱,其棋力的增长不是线性的啊。


深度进修对搜刮引擎优化意味着什么?


就我小我来说,深度进修对搜刮引擎优化的影响今朝还不晴明,还须要一段时光不雅察、思虑。今后有设法主意了再来交换。如今须要做好心理预备,搜刮引擎断定页面质量的精确度可能会有质的飞跃,钻空子的难度将大年夜大年夜进步。


估计照样有做中文搜刮引擎优化的心里在问,这对百度搜刮引擎优化有卵用啊?多写写百度啊?那么请思虑百度为什么花大年夜价格成立百度深度进修研究院?肯定不是闲的了。百度把深度进修范畴最牛的人物之一、Google Brain项目创建人吴恩达都给挖来了。这个吴恩达高中照样在新加坡上的呢,莱佛士书院,第一名校。这里有吴恩达讲机械进修的近20小时的线上教程 。有互联网真好,不然怎么能随便马虎看到、听到大年夜师亲自讲课。


最后来点诡计论。就在今天,Google搜刮的最高负责人,Amit Singhal,告退了。几年前,他对排名算法中应用机械进修是有些排斥的。接替他的是谁呢?John Giannandrea,原Google人工智能部分的负责人。难道由工程师设计规矩的算法已成以前,以深度进修为代表的人工智能算法要周全登上舞台了?


祝大年夜家新春快活。

精彩评论5

jn7   学习于  2016-6-27 21:34:43
好帖就是要顶
c8sv   学习于  2016-6-27 21:44:54
难得一见的好帖教会我如何优化网站
ez2r3   学习于  2016-6-27 21:19:30
怎么优化网站说的非常好
ez2r3   学习于  2016-6-27 21:27:49
技术和方案都很好哦
ez2r3   学习于  2016-6-27 21:57:48
LZ真是SEO的人才