首页 > 科技 > 业界 > 正文

网爆:百度新算法内部资料
2012-09-18 11:24:14   来源:第一新闻网   评论:0 点击:

  第一新闻网(www.firstnews.com.cn)一大早,就看到群里发一篇文章《百度员工揭秘百度八月最新优化的算法<绝密资料>》,从一个头的引子写作“这是我的一个在百度工作的工程师朋友告诉我的百度在从六月开始的k站行动中的新算法,以下内容只是主要的方法,具体的详细算法就是根据以下内容来的,至于具体的算法是百度机密,我也获得不了。”就可以看出,这个开通写作,是一个非常有吸引力的文章,而内容普遍都很简单,如果按照朱卫坤的写作方式,会添加一下内容,增加阅读并实战操作,下面开始解读:
  
  
  
  
  1.百度对买卖链接进行了严厉的处罚,对导出链接超过40个(一些知名站点不受影响),链接工厂,垃圾站,半年以内的站所导出的链接全部没有权重。对于不相关友链全部降权,大约有相关网站友链的十分之一左右。
  解读:这个问题摆在第一个,是一个模棱两可的东西。百度一时采用外链做排名,一会是用户体验!对于友情链接单向链接这个说法,一直都是很难判定的。被k的站就不是知名站点,被k的,就是草根站?这个说法,一下就打消很多人的看法。友情链接这个东西,还是要交换的,你人脉好,可以换100个,难得人缘好,还能控制你不交朋友?这个不纠结,人性化的去思考,就很很好。
  
  2.百度增加了对隐藏链接的识别,隐藏链接一律没有权重。
  解读:隐藏链接,是用肉眼看不到的,搜索引擎爬虫就是抓取内容的机器人,把他说的那么神奇,如果他可以识别出来,那么也就会出现被误判的可能,因为同一个网页上的链接,蜘蛛是按照正常抓取的。所以,这个隐藏外链就是很扯淡的,很多大站都屏蔽百度了,他不是照样抓?这个说明了,他还不是那么完善,这个说法,几乎就是凑字数的伪命题。
  
  3.百度针对购买政府,教育机构,事业单位链接的行为进行了打击,百度已经建设了政府,教育机构,事业单位数据库,对此类网站给予专门的排名,同时此类网站导出链接一律无效。
  解读:百度的数据库之多,这个不用在这里介绍。但是可以明确的说明,一般政府站也就是跟同地区的网站又做交换。当然现在卖政府站的也很多,不过总的来说,政府站很多是被入侵了,然后做跳转,常见的是擦边球的网站。如果百度可以把这些擦边球的快照一次性给解决了,那么百度这个数据库之说就成立了,不然还是一个扯淡的说法。
  
  4,对于针对百度产品进行优化的行为进行打击,百度产品所导出的外链一律没有权重。
  解读:百度的产品一向就是做外链的那些人,最喜欢的,对于外链权重这个说法,朱卫坤多次提到,这个外链不是什么权重不权重的东西,而是让用户看到这个内容,可以通过留下来的链接,直接去访问网站,才是重点。就跟你在电视广告上做广告,有人看到你的产品在电视上,就自己拨打电话购买,但是有的人喜欢亲力亲为,就跑来你店里直接购买,他觉得可以选择的品种会更多。所以百度产品,就是让你做免费广告的,什么外链,什么权重,都是浮云。
  
  5.百度对在友链平台出售友链的网站所导出链接全部不给予权重,百度已经建设了一个友链平台的特征库,比如在chinaz通过了验证的网站,阿里微微验证的网站,阿里微微自动挂链的网站,百度的系统都能自动监控到,发现了以后将这些网站加入出售链接的网站数据库,这个数据库内的网站导出的链接都是没有用的。
  
  解读:如果如楼主说的,网站出现这些内容的站点,就会监控无效。那么百度第一时间k的,就是这些站。这些才是“毒瘤”,但是百度并没有k他们!这个说明了什么?也就说明了这些东西,是睁眼闭眼的东西,不反对,也不支持,只有这些东西存在,才会让市场有竞争,才有循环机制。如果什么都取缔,那么就没有任何意义。
  
  6,百度实现了对论坛发帖和回帖用户的识别,被系统认为是垃圾贴和垃圾回复的(百度根据一些自动顶贴机的顶贴原理和一些万能回复(就是很常见的回复)搞了一个特征库,符合这个特征的就会被认为是垃圾内容)不给予权重,非原创(识别原理和识别原创文章的原理一样)的回复,同一用户重复发表的同样内容的帖子或回复不给予权重。
  
  解读:百度站长社区一直在说,他们在识别原创文章上,会努力完善。这个努力完善充分说明了他的不完善,但是楼主还说他们可以识别论坛回帖内容。这个太神奇了。试问,如果你去回帖,按照你个人去顶帖,看一百个帖子来说,你会怎么回复?一百个人看到同一个帖子,基本上可以分两派,一方支持,一方反对。其他的不就是飞过,阅过,看过,仅此而已吗?难得还可以搞出回帖原创?一个伪命题。
  7.百度会对国外空间和未备案网站加大检查力度。
  解读:大家都知道,国内备案非常繁琐,甚至备案都有快备的。这个也成了另一个职业出现,替人备案。中国人,没有人想过黑户口的生活,如果说,只要你想上户口,他们就分配,那么到处都是有户口的人。同样的道理,如果网站按照正常程序走,不要百般刁难,谁原因漂流过海去做海归?
  
  不过,这次确实有很多未备案的网站被牵连了,估计这个短时间内,无法恢复。但是大家都希望可以早日回国,可惜政策上,就是要逼人上绝路。
  
  8.百度又根据了常见的采集软件的伪原创方法增强了检查伪原创的算法,像打乱段落,关键词替换,截取一部分等方法百度现在都能检测到,百度会针对网站伪原创和垃圾内容所占内容的比例进行处理(具体数额我不知道)而且会把伪原创的内容全部剔除。
  解读:天下文章一大抄,这个与平台有关系。比如大家来到百度就是要找想要的东西,而百度提供的都是虚假的,最近减肥公司被一锅端。这个就是最好的例子,好的网站,是没有排名的,质量很差的,给百度钱,就有好的排名了。平台是非常重要的,朱卫坤身边很多原创博客或者网站都被百度k了,一直没有恢复。而那些采集他们文章的网站,都很正常。这个就不纠结了,反正就那么一回事。
  
  9.百度对采集的内容收录有一个数量限制(具体不知,但是大站没有影响),达到数量以后就不收录了。
  解读:互联网本身就是一个信息传播的世界,采集文章,就是让好的文章传播到每个角落,这个才是互联网提倡的。如果有那个时间去打击什么采集文章的网站,不如多用点时间,去开拓更多的业绩。比如腾讯,淘宝,中国平安,人家都进入金融业了。有时间,就去多搞这些吧。
  
  10.百度建立对导出链接基本没有但导入链接很多的网站加入疑似购买链接的数据库,进行重点监控和人工排查,对于该网站的导入链接加入疑似出售链接的数据库进行监控和排查。
  
  解读:如果有这个,那么站长就要庆祝一下了。能有这个效果的,基本都是品牌网站,草根网站是不存在这个问题的,所以这个东西,只是说说,无从考证的,而且这个东西,如果真做了,那么死的是大站,更现在被k的小站是没有任何关系的。
  
  11.百度降低了外链对网站排名的影响,但降到了多大不知道。
  解读:一时降低的,网站排名无非就两个方面,一个是外链,另一个就是访问ip。一直做降,从05年就开始写文章说要降,也从来木有降过。
  
  
  12.百度对长时间原创的网站给予高权重。
  解读:原创文章不代表是有意义的文章,如果写一篇文章:“小明今天去打酱油,然后写一篇日记,这个时候,有一段看官在看这篇文章,那么这篇文章是原创.....”这样的文章,只此一家别无分店,是原创,但是这样的文章能吸引用户吗?
  
  13.百度分享的权重大大减少(很有可能直接没了),因为刷百度分享的太多,百度没有一个有效的解决方法,所以百度分享权重被大大减少,不过等到百度有了一个好的防作弊方法以后,百度分享权重一定很大。
  
  解读:百度分享这个东西,就像是你今天买了一件衣服,然后你想告诉别人,然后希望得到亲朋好友的赞赏。这个就是百度的大微博,因为分享的平台,都是微博平台。这个就说明了,自己喜欢分享就分享,别的不管了。
  
  14.仅对高质量博文给予高权重
  ps:高质量认定标准:字数,原创性,非垃圾内容,评论量(同用户多次发布评论现在百度已经能识别了)。
  解读:这个是一向在努力做好的,每次百度管理员都是语重声长的说:“我们会努力完善”。
  
  15.除高质量博文导出链接外,其他全部不给予权重。
  
  解读:这个上面说过了,就像你这篇文章,别人看了,就看过了,而我看了,还会根据这篇文章点评,如果能看到楼主的原网站,一定加好友交流一下的,可惜没有找到,那么就不客气的点评文章了,如果楼主您看到了,可以去搜索我,然后找我交流一下,我可是非常愿意更您学习讨教。
  
  所以,博文的质量在于看的人,是否有帮助,有帮助的话,外链就有价值。没有帮助,外链留了也浪费。
  
  
  16.对于堆积字符,词语等所生成无意义内容百度已经能识别,百度会认为这些内容是垃圾内容,进行惩罚。
  解读:这个识别机制,如果真能实现的话,我还是表示会非常支持的。我们专栏作者圈子,一大把文章都被人转载改编,内容都被他们恶意添加了他们的版权,最痛快的是,自己的网站被k,而转载改编不能读的文章,还被收录,有时还上了百度新闻源。让原创作者情何以堪啊!
  
  至于楼主最后的一个说法:“百度将以上不给予权重的外链行为,视为作弊行为,百度会将这些外链加入到以疑似作弊网站数据库,进行重点监控和人工排查。”其实这个就是一个总结罢了!没有什么,只能说明的就是百度自己他都不知道怎么走,东西多了,企业人员多了,管理上出问题了,都会是致命。
  所以,站长能做的就是,做原创,做高质量外链,然后做营销!营销给那些可以转化的用户,你的目的很简单,就是赚钱,别搞那么复杂。网站没了,就重新做起,百度喜欢外链,就专门做外链站,百度喜欢用户体验站,就专门做一个。但切记,别做360一样的搜索引擎出来,不然百度又要迁怒与站长了。
   

相关热词搜索:百度 算法 内部

上一篇:点评网Yelp带给web2.0网站的11点启示
下一篇:艺点儿网刘銒:让艺术品走下神坛

分享到: 收藏
评论排行