百度蜘蛛详细介绍
你了解百度蜘蛛吗?
第一,百度蜘蛛极为活跃,经常看看你的服务器日志,你就会发现百度蜘蛛抓取的频率和数量都非常大。百度蜘蛛几乎每天都会访问我的论坛,并且至少抓取几十个网页。我的论坛只开通了不到一个月,网页数目还没有完善,但是百度蜘蛛的活动已经相当可观了。大量捕获是百度的强项,其他任何搜索引擎都没办法相比。但是百度中文网页数目并不是最大的,百度蜘蛛抓取的频率和网页更新情况有关。天天更新的网站一定会吸引百度蜘蛛更频繁的访问,我有一个非常明显的例子,www.hiwoku.com这个域名比较(老),注册已经快一个月了,开始做了一个学习站,感觉更新比较麻烦,而且也没有很多时间去维护,但是这个学习站是关于百度hi方面的,虽然内容不多,但是页面却不下两W(是别人的整站源码),--刚开始,几个好朋友光顾了一下,9IP,没想到
有一天早上打开网站,居然发现从百度来了100多IP!!奇迹,百度蜘蛛就有这么神气,site:www.hiwoku.com查一下,晕了,一晚上时间,被收录了2000多页??
应该说这个学习站继续做下去有点前途,但是我时间还真不够用,所以K掉了这个学习站,用这个域名做了一个hi专题,没几天,这个站就被全面抓取了,!!!,----我发现百度对天天更新的站最敏感!,彻底换内容更敏感----哈哈,看来这个机器人也是喜新厌旧的家伙啊!
只要内容够多(百度蜘蛛也贪),你站的内容如果不达到么个数目,它可能懒得理你,具体多少,好象是百度内部机密,哈哈
第二,我注意了一下蜘蛛似乎更注重页面内的因素。与Google更加重视内部,有点爬虫类的味道,越黑越深,它越是喜欢往里钻,--不相信你做100个页面,做得再漂亮,只要链接没有层次,哈哈,不好意思,你最多就孤零零的被收录可怜的一点点东西。我前两个站开通不到一个月,也很少有外部链接。但因为本身的结构是比较有层次,一些竞争不太激烈的关键词在百度的排名还不错。
第三:要想排名靠前,目标关键词应该完整匹配地出现在页面中。比如说,你想让你的网站在用户搜索”电脑学习”时出现在前面,那么在你的网页上,”电脑学习”这四个字应该完整连续的出现,而不能”电脑”出现在第一段,”学习”出现在第二段。
第四:百度排名算法是以网页为基础,比较少关注整个网站的主题。联系到上一点,这说明百度排名算法中比较注重内部结构缺少完整的语义分析。所以一些目前比较认同的关于site:之间那几个所谓关系到搜索质量的东西,并不是百度蜘蛛所最敏感的,
第五:百度并不被所谓的优化迷惑!!GG对优化好象远远没有百度敏感,百度尤其反感所谓的优化,不知道是用什么方法识别----我的看法是目前最”先进“ 的优化方法,好象对百度没什么大的作用,大家都这么干了,机器人是有点死脑筋,但是百度那些IT也不是吃白饭的哈,要知道他是全球最先进的中文搜索老大,,GG在中文搜索这快--哈哈,不用说了吧:)没得比!
第六:充分利用百度的一个最大的优势--大家可能觉得它的优势对我们来说就是难事了嘛:呵呵,的确是可以利用的,百度收录速度可以用海量来形容,正因为速度快,就给我们留下了可以利用的空间!---回头来还是要说到优化了:)--虽然百度对优化并不感冒,但是只要你优化方式友好,还是能起到不错的效果,--我比较认同适量优化!--至于到底优化到什么程度才是最佳?我也不能说出1,2,3。呵呵--但是别忘了,因为百度收录太快,我们就可以经常使用一些不同的方法测试效果,,而且百度蜘蛛也乐意你天天给它玩新花样,呵呵,看来这个神秘的东西也是有点孩子气的哈,需要人来哄哄,也爱凑凑热闹--好象这样做还有一个好处,如果你的站从来都懒得去玩花样--哈哈,那很可能哪天蜘蛛不再光顾你的网站了,为什么? K掉了嘛!--百度蜘蛛有一个青蛙一样的眼睛吧,呵呵,动的东西再远也能看见,而且特别注意,静的东西在它身边也未必能看见!
Google信任指数(Google TrustRank)即google对站点的信任程度,是一个对网站排名有重大影响的参数,重要性超过PR值。有人甚至认为Sandbox也不过是TrustRank的一个延伸。所以,SEO绝对不应该忽视TrustRank的存在。点石互动成员石头就GoogleTrust Rank进行一些简单的总结。本文主要讨论影响Google信任指数的一些因素。
石头认为影响Google信任指数的参数有:
1。域名的时间。
域名越久,说明你具备长远的眼光,对网站规划可能已久。
2。网站开通时间(这里指被google检索到的时间)
新站更有可能进入Sandbox,所以可以反过来说明开通时间比较长的站点更值得信任。
3。经常的更新。
每天或几天就增加一些内容。而且增加的幅度比较平均的话,更接近一个好站点的实际内容增加方式。
4。外部连接的质量。高TrustRank站点过来的连接会更好地提升自身TrustRank。而且最好是单向连接。
5。独立的IP。不跟任何其他站点共享IP的站点,说明你投入的精力和自己本身对这个站点很重视。而且也可以避免受到其他质量较差站点的影响。
6。网站能够持续稳定的可访问。石头曾经就见过站点连续二次暂时不能访问,当第二次中断恢复的时候就掉入了Sandbox。说明该站点的信任指数降低了。
7。没有作弊行为。如果被google检测到作弊,google肯定会降低TrustRank指数。象很多好的博客站点,一开通的时候,Google非常喜欢,但随着垃圾博客的增加,最后Google将其将到很低。包括Donews Blog. 当初刘韧和老白搞”毛主席语录”优化竞赛的时候,我针对此做了分析。
8。Meta标签攒写合理。一定要确保TItle,描述,能准确地描述该页面的内容。不要堆放内容里不相关的关键词。也不惜贪多堆积太多。因为现有的大多数Google值得信赖的站点,Meta,标题看起来好象从没有刻意优化过的站点更获得亲徕。
9。跟其他站点不类似。
如果一个更高TrustRank值的站点如果与你的站点类似或镜向,那么你的站点就会被google降低信任指数。所有才有人利用这一点打击竞争对手,即所谓的302网站劫持。
10. 用户行为。搜索结果被点击情况和工具条搜集的点击量。
Google有可能会将搜索结果的点击行为计算进来。还有google工具条上搜集的信息一并考虑。比如搜索引擎是如何应对突发事件呢?比如中央刚提出了“八荣八耻”,那么这一词搜索量会突然剧烈增长,google能迅速地意识到变化。但是有那么多门户站点有相关的内容,google如何能找到新华网中的内容应该靠前呢?有人分析是这样的:google发现大多数客户搜索这个词,要一直翻页或一直点击,直到发现到了新华网之后,就很少人再继续点了。说明新华网的内容就是大家要找到的。
11。持续不断的原创内容。
当然,每天增加的内容比较丰富。如果太短的话,google会认为是故意针对其设置的更新。
12。网页外部连接分布情况。
是集中在少数几个页面,还是大多数页面能获得较多的连接?连接文字是完全一样的,还是接近自然的多种组合?
13。优化痕迹不要太明显。
严格按照对应的条款操作,不要过度,过度的优化可能不会让你的站点被删除,但可能会被google降低信任指数。比如域名里关键词太多,关键字出现的地方和方式极不自然等。
14。 成为一个新闻源。
几乎所有的新闻源,都是极高的TrustRank。那么如何成为一个新闻源呢?接下来石头再就这个问题继续跟大家分析。
以上是关于TrustRank的一些心得,希望大家能继续发表自己的看法和意见。毕竟是一家之言,不可概全。所以真心希望,对此有独特观点的朋友能够发表你的观点,大家一起交流。
站如何应付百度的"考验期",获得流量?
我已经证实百度确实增加了对新站的"考验期",其表现为;
新站建成后,百度会以最快的速度访问你站, 这个时候用site命令可观察到被收录的1页.
约过1~3天后,百度增加收录,一般为3页左右.
其后,每隔2~5天都会收录新页面.
(这个时间取决于你的流量和ALEXA曲线,个人想法)
等到20天左右,百度会突然大面积收录你,一般会达到 1~2万页,至此,考验期结束.
其实,百度并不是考验期结束后才开始大量收录你站,而是把原先采集到的信息,暂时保管起来,做对比分析用而已. 经过20天的考察通过后才正式发放收录内容,让人们通过引擎搜索到你.
考察内容是:通过对被采集数据的对比分析,确定是不是有价值的信息.如果你站内容被认为是有价值的原创的不是采集的,你就能通过考察,否则被认为是垃圾站,打入18层地狱.
通过考验期后,百度会给你网站设置权重. 当然,专业的原创的时事性好的权重高,反之较底.
考验期以后的百度流量取决于你的权重和优化程度.一般200~2000IP.
以上是凭我实际观察和感觉写出来的 估计能适应一般情况.
那么新站如何安全通过用百度考察,并获得预期的流量呢? 同时如何保障后续流量持续增长呢?
今天简单写出自己的心得吧.更多的要大家一起去体验和发觉
1新站,不要使用老数据,百度全重不是固定不变的,当你的全重不是较高的时候,你让百度收录完几万条数据是很不合算的,这是不少站被收录几万数据,但没有流量的主要原因之一(另1个原因是优化方面的)
2新站,不需要很多数据,但需要每天更新一些数据,让百度蜘蛛每天都能吃到东西.
3新站,要坚持原创.不要用被你采集文章的原标题.
4考验期后要想获得持续增加的流量,好要坚持经常更新数据,坚持做与你权相当程度的优化. 我在别的文章中写过不少优化技巧,这里就不多说了.
baiduspider常见问题解答
什么是baiduspider?
baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。
baiduspider对一个网站服务器造成的访问压力如何?
baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,baiduspider对您网站的服务器不会造成任何压力.
为什么baiduspider不停的抓取我的网站?
对于您网站上新产生的或者持续更新的页面,baiduspider会持续抓取。此外,您也可以检查网站访问日志中baiduspider的访问是否正常,以防止有人恶意冒充baiduspider来频繁抓取您的网站。 如果您发现baiduspider非正常抓取您的网站,请反馈至webmaster@baidu.com,并请尽量给出baiduspider对贵站的访问日志,以便于我们跟踪处理。
我不想我的网站被baiduspider访问,我该怎么做?
baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。 注意:禁止baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法
为什么我的网站已经加了robots.txt,还能在百度搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的robots配置是否正确。
百度蜘蛛在robots.txt中的名字是什么?
“baiduspider”全部为小写字母。
baiduspider多长时间之后会重新抓取我的网页?
百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。
哪些行为会被百度搜索引擎认为是作弊
以下行为都可能被认为是作弊
-在网页源代码中任何位置,故意加入与网页内容不相关的关键词。
-在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为。
-在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为。
-故意制造大量链接指向某一网址的行为。
-对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为)。
-作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为。
-有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。
