首页 > 科技 > 业界 > 正文

百度:正在设计一套较完善的原创识别算法
2012-08-11 08:42:47   来源:Chinaz   评论:0 点击:

  站长之家(chinaz.com)2012年8月10日整理:百度网页搜索产品市场部对外界而言,这个团队就是个传说,在百度内部,这个团队也同样带着极其浓郁的神秘色彩,也因神秘,外界对他们充满了好奇和猜测,甚至还有一些误解。2012年8月10日,百度站长社区迎来第一期站长门诊开放日,网页搜索产品市场部专家Lee现身为站长们答疑揭秘。
  
  Lee在回复中提及了关于快照更新问题、原创识别问题、超链问题等站长们心存疑问许久的问题,并透露称百度正在设计一套较完善的原创识别算法,不久之后将会邀请站长朋友提供一些建议及抄袭的实例用做算法调整之用。此外,还表示近期都会通过站长平台和站长们做专门的交流或说明。
  
  下文为百度站长社区开放日问答整理:
  
  问题1.一个网站内有部分页面的title等设置一样,那么会不会影响到这些页面的相关关键词排名,还是从中选择一个权重高的合适的页面出来参与排名竞争?
  
  Lee:这种问题请参考《百度搜索引擎优化指南》,其中已经有非常明确的说明,多个网页title一样,意味着这部分网页搜索引擎判断其中心内容非常困难,也就不容易准确的给其一个合理的权值。
  
  问题2.百度对于网站分隔符、网站结构是否有自己的标准?目前医疗网站内容同质化严重,请问百度是如何来判定?
  
  Lee:网站的结构在保证用户体验的前提下,适当的做一些对spider的优化会有助于收录,我们推荐扁平的树型结构。《百度搜索引擎优化指南》中有详细的说明。
  
  关于同质内容,先透露一下,我们正在设计一套较完善的原创识别算法,不久之后也会邀请站长朋友给我们一些建议及抄袭的实例用做算法调整之用。
  
  问题3.网站一个网页多大合适,有的页面大小过200k,我一般都注意在110k以内,这个有数字标准吗?
  
  Lee:网页大小建议以用户能接受的程度为准对百度来讲,我们能接受的网页大小肯定已经超出普通网页平均大小的数十倍,完全不用担心。
  
  问题4.百度对于一篇原创文章的判断到底是怎样的标准?比如一篇原创文章可能最先是一个新站或权重较低的站发布的。
  
  Lee:近期我们会就原创识别问题和大家做专门的交流,为了保证算法的寿命周期,我们不会公布算法的细节,但大家的意见和碰到的具体问题,都考虑到算法中。
  
  问题5.现在点击器泛滥,导致很多内容很不好的网站排名很好,认真做内容的网站反而不能排在前面希望这个百度能重视。
  
  Lee:如果大家遇到此类问题,请到http://tousu.baidu.com/webmaster/suggest反馈,我们有专门的同学轮流分析并安排到合适的项目中去解决,我也是其中之一。
  
  问题6.百度对于链接买卖、站群和克隆站的打击策略是怎样的?
  
  Lee:超链应该是用户真心实意对网站的投票,买卖链接有违超链的本意,我们反对链接买卖。很快我们将就此类问题做一个专门的说明,同时也会说明我们对买卖链接的处理原则。
  
  问题7.如果站长们不投诉,被误伤的网站会一直被惩罚吗?有没有恢复的期限,是半年,还是一年?或者更长?
  
  Lee:我们的策略都会定期的review/改进,不同的策略有不同的周期,天级到月级不等,我们会持续的改进策略,以减少误伤。
  
  问题8.针对一些大站比如B2B分类信息站其大部分每天更新的都是产品详细页因为客户都比较懒,发布的信息都非常简单。
  
  Lee:搜索引擎对网页价值的判断,不是从字数出发的,而是从其资源质量出发的只要是对用户有价值的内容,不论长短,我们都会给一个合理的评价如果这个网站上提供的内容或者服务非常有价值,无可替代,那对搜索引擎来讲,就是一个高质量的网站
  
  问题9.现在凭借发布时间来判断两篇相同文章哪篇是原创还无法实现,这一点百度说明过,但是现在的情况是很多新站,权重低的网站站长自己辛辛苦苦一点点码字写出来的原创文章,被高权重网站转载,虽然注明了出处,但是对于百度来说,如果仅仅因为转载网站权重高就判断为原创文章,那就意味着低权重网站被误判为抄袭或转载,这样显然很不公平,请问对于判断文章原创问题,百度搜索团队是否有解决方案,或者直接回答我们“百度是否能判断出哪篇文章才是原创的”。
  
  Lee:刚刚已经说过了,我们正在计划在原创方面做一些改进。原创识别是一个很有技术含量的话题,不是简单的几种规则就能做好的,互联网很复杂,人心更复杂,不过我们有信心逐步的去解决这个问题,其中也需要站长朋友多提供相关的问题和建议。
  
  问题10.百度什么时候能发放,外链查询工具,还有网站权重对百度是否有用的工具。
  
  Lee:外链查询工具请密切关注站长平台,也许会有惊喜。
  
  问题11.自从大K站之后,许多的网站快照一直停留不动,不知道这是什么原因。是算法在调整,还是我们应该在网站自身找原因。
  
  Lee:关于快照的更新时间,尤其是首页的更新时间,我一直建议不要参考,这个时间跟网站的价值没有任何的关系,近期我们也会出一个专门的说明。
  
  问题12.很想知道,在百度眼里什么样的站是高质量的站,每一个站都是从没用户到有用户,一点点积累起来的。
  
  Lee:关于这个问题,请大家换位思考一下,作用一个搜索引擎,所追求的最终目标是为用户提供最有价值的信息,我们希望大家有一个最低限度的判断,那就是将自己作为一个普通的用户,通过搜索引擎搜索到自己的网站时,自己相不相信自己网站上的信息,自己觉不觉得这是互联网上最好的信息。
  
  我们通过反馈渠道收集到声称自己网站是原创、高质量网站的反馈,其中80%多都是无效的,甚至大量声称老中医3-5天治愈绝症的网站,通篇内容读不通,声称自己是高质量的网站。
  
  如果互联网非常纯洁,那我们也不会花费大量人力去识别网站的质量,也就不会有误伤。但互联网越来越不保险,我们的策略也越来越复杂,只要对技术有一定了解的人,都应该知道误伤是无法避免的,我们也尽最大的努力将误伤降到最低限度。
  
  我不知道你的网站是不是真的非常高质量,如果确认,可以通过上面几帖提到的反馈途径反馈给我们来追查一下。
  
  问题13.虽然百度的官方不承认有降权蜘蛛的说法,但是例如:123.125.*段的蜘蛛出现,网站在排名、收录上快照、都会存在异常,是否可以理解为这段IP的蜘蛛虽然不是降权蜘蛛,但可以认为是自身网站出现了问题,百度对于网站的考察和警示呢?是百度对网站所提出的警告呢?
  
  Lee:Baiduspider只有一种,不存在什么降权蜘蛛。不过你所提到的对网站的警示,我们会在站长平台中考虑。
  
   

相关热词搜索:百度 原创识别算法

上一篇:腾讯微博借力奥运热度飙升 社交APP排行摘冠
下一篇:抄袭背后盛行成功学逻辑:谴责反被斥哗众取宠

分享到: 收藏
评论排行