莆田小鱼社区

搜索
查看: 36572|回复: 0

[站长新闻] 百度网页搜索反作弊团队写给我们站长的一封信

[复制链接]
发表于 2013-7-11 14:40:18 | 显示全部楼层 |阅读模式
      学习网络知识,特别是学习SEO的人群,必须要时刻关注百度的发展,因我们站长所有做的一切都要围绕着百度搜索引擎去做,这样我们站长就不会走偏掉。才会走向正规的道路,才会越走越好,才会越做越有价值我们的网站,下面是百度网页搜索反作弊团队写给我们站长的一封信,关于最近很流行的SEO作弊及采集问题的处理方法及原则和惩罚网站的事项。
0 ^. P9 `2 s$ H  一、百度搜索引擎为什么要重视原创。2 C5 Y, H. ~) Z( }: \8 I
  1.1 采集泛滥化
" `8 k" a# E5 f" ]( M3 L$ {+ z. f  来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,百度搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。. d. J. e8 I6 X3 U7 F$ m
  1.2 提高百度搜索用户体验7 p, v8 v+ S: ]* B. \& \
  数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了百度搜索结果的质量和用户体验。百度搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。
( w6 M  G4 h: D0 O; Y  1.3 鼓励原创作者和文章
1 R; A7 ]: w- o! [  转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是百度搜索引擎的一个重要任务。2 s+ M- v2 I9 ?$ ^
  二、采集很狡诈,识别原创很艰难
( ?& W" H) r" {9 @1 I  2.1 采集冒充原创,篡改关键信息" }# W$ |6 h" F. O8 G& N
  当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要百度搜索引擎识别出来予以适当调整的。* E) |- O+ M, `. x; s; s4 {# Y
  2.2 内容生成器,制造伪原创$ X- l+ }! u2 O4 v
  利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是百度搜索引擎需要重点识别出来并予以打击的。. M/ m6 ^5 F2 t. r! c
  2.3 网页差异化,结构化信息提取困难
# J/ E3 F8 w5 f2 b+ H: [  不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要百度搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知百度搜索引擎网页的布局,将使百度搜索引擎高效地提取原创相关的信息。
# N+ N6 x! o- S0 B  三、百度识别原创之路如何走?
$ k  x4 _3 K- N  3.1 成立原创项目组,打持久战
6 `" |( W8 B0 N  面对挑战,为了提高百度搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。& g/ H2 x, T1 z* J
  3.2 原创识别“起源”算法! U7 u: h0 n) s) K* x! C1 @- J
  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
5 z. k3 q& h6 A/ v$ c4 W- D  W- u( F; k) h  目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。
% k9 t9 Z) m7 z  D  3.3 原创星火计划5 z+ D8 C! j) i/ {) e! ]1 J
  我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,百度搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。, K7 I& j; L) M+ V2 X3 Z2 t  q
  目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。( O1 n8 e- v+ l" q0 v7 T
  最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。5 G% O# M# |" k! @7 B" B4 p2 A
  一直以来,我们本着为用户提供最优质直接的信息的原则,不断优化算法、升级系统。保护优质页面与打压低质页面是一直都运用的两种方式。
' z  W% I! F5 S" S7 W1 @4 H  本次想向各位站长朋友传达,我们将针对低质量页面将进行一系列调整,我们称之为石榴算法。
- |5 m8 ?. T: X8 v4 f  第一期将对此类页面生效:含有大量妨碍用户正常浏览的恶劣广告的页面,尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表。5 q; ]; D* J( m: ]
  从整个互联网生态环境看,泛滥的低质量广告越来越多的被加诸于大量网站的各个角落,无处不在,这已经严重影响了正常用户的浏览体验。想象一下,当你打开一个网页,看到的不是感兴趣的内容反而是一个个垃圾弹窗广告或者混淆、掩盖住主体内容的大面积广告,你的感受如何?不言自明。. ]" v- c9 C2 z3 L5 L
  因此本次算法上线后,我们将会看到低质广告少、无弹窗的优质页面排序有所提升,当然,前提是主体内容有价值。相应的含有恶劣弹窗、大量混淆页面主体内容等垃圾广告的页面排序会大幅下降。4 Z8 X+ g5 d% ?( G- c
  这是百度搜索引擎尊重用户的必然选择,也是着眼于净化互联网整体环境的必然趋势。( z0 u0 S, z3 q6 `  ^7 s
  针对一些网站到处发布推广性软文的现象,一直以来我们都在通过各种方式进行处理。一方面,过滤清理这种垃圾外链;另一方面,对目标站点进行适当惩罚。但是,这一现象仍然大量存在。例如,如下这种明显的推广性软文,不胜枚举。
; w% [8 `" l- j, E( t  http://soucang.baidu.com/Lee/snap/592f0a175151b2cd5593228d.html
5 \; k: N! s. ]8 R  http://soucang.baidu.com/Lee/snap/09e3d1d170b9600f1ad44c8d.html
9 p- ]9 u4 |# a. a4 b6 ?+ {  http://soucang.baidu.com/Lee/snap/07cfa2098db8b5f6712ac12b.html
2 _$ d* g: i. }1 N$ @8 j5 {, z  http://soucang.baidu.com/Lee/snap/56c9f438971755df056a4883.html7 d" q/ v6 v1 l  q  e4 a
  http://soucang.baidu.com/Lee/snap/198e6d14bd695c1e0fa31e81.html  y8 q9 v; I5 ~0 b) M/ J
  因此,我们近期将通过绿萝算法2.0进行更大范围更加严格的处理。
1 E/ t9 D3 K7 Q# Q. w6 X: J  第一、加大过滤软文外链的力度;
  J: ^2 h+ E! U  V  第二、加大对目标站点的惩罚力度;
4 [2 }. e9 @4 @8 p3 O4 Q  第三、对承载发布软文的站点进行适当的惩罚,降低其在百度搜索引擎中的评价,同时,针对百度新闻源站点将其清理出新闻源。
" h# _) N/ A; J$ s$ h* }  |7 ?  我们希望存在问题的网站在近期进行全面清理,并且将明显推广性的内容移出百度新闻源,这将使您避免受到算法的影响。
8 c5 F, i, i7 D/ o7 v( J  最后,希望站长能够从用户角度出发往长远考虑,在不影响用户体验的前提下合理放置广告,赢得用户的长期青睐才是一个网站发展壮大的基础。) O$ G; h( r8 K& B1 M
  提醒:石榴算法第一期针对含有大量低质弹窗广告及大量混淆页面主体内容等垃圾广告的页面算法升级,将会在一周之后正式上线,希望广大站长在这一周内尽快检查网站中的广告情况,若存在上述说的情况,请及时进行处理。

本版积分规则

快速回复 返回顶部 返回列表