详细说明
什么是百度蛛蛛(Spider)
在了解百度蛛蛛之前,我们需要先了解什么是网络。其实我们所说的网络一般指互联网。我们可以将网
络比喻成一张巨大而无边际的蜘蛛网,而网站可以比喻成这张蛛蛛网上的每个节点,节点上有哪些信息
需要去搜索,就有了“蛛蛛”这种自动化的程序。故百度“蛛蛛”就是针对百度搜索引擎而下的定义。
1.工作原理
百度作为中国最大的搜索引擎,有一套自己的算法。而百度蛛蛛就是通过这套算法来抓取相应的网站,
并对这些网站进行判断。
2.分类
百度经过多年的更新,面对不同的网站也给出了不同的蛛蛛分类,让这些蛛蛛有效地去判断网站的价值
。而百度蛛蛛一般分为3类:高级蛛蛛、中级蛛蛛和初级蛛蛛。每种蛛蛛就像我们人的职位一样,对网站
进行不同的分工。
(1)高级蛛蛛:这种蛛蛛只会去爬行一些权重高的网站。我们经常会发现,为什么在其他大型网站发外
链都会秒收,而自己的网站却不收录。原因不是高级蛛蛛在爬行网站的时候有各种优先权,如来访率高
、爬行深度高、收录快和排名好等。
(2)中级蛛蛛:这种蛛蛛会通过一些网站的友情链接及外链进入一个新的网站,然后会对新的网站再次
进行判断,如新的网站内容是否公优质、原创,并删除一些劣质的内容。
(3)初级蛛蛛:初级蛛蛛就像一个小门槛,要求不高审核频率也不高。其只会针对一些新站进行过滤,
经过一段时间之后再来判断是否值得放出来。出现这种情况的主要原因是新网站太多,但是好的新网站
却很少。互联网提供的是优质的内容,过不了审核期的新网站自然不会放出来。这种情况一股叫做沙盒
期,这也是很多新网站无法坚持下去的原因。
3.禁止爬行
百度蛛蛛是一个勤劳的“工作者”,但是有的时候我们又不能想它太勤劳了。尤其是一些新网站,很多新手站长没有确定好自己网站的定位,会不停地修改网站的关键词。而这种情况就会导致百度蛛蛛无法对网站准确地定位,久而久之网站就会被其抛弃了。
解决这种情况的办法有二种:一种是通过本地搭建的虚拟服务器,做好网站程序,并填充了相应的网站内容之后再进行上传,这样从本地开始就针对网站进行全方位的优化,包括代码、图片和文字等;另一种是通过屏蔽百度蛛蛛的代码,将整个网站全体屏蔽到robots.txt文件中。
4.抓取时间
百度蛛蛛的抓取时间,决定了网站更新的内容是否能快速收录。
例如,周一更新的频率比较高,最好是在早上的8点-10点进行更新;周二可以做为周一的铺垫,进行持续更新;周三百度会对所有的关键词进行洗牌,也就是说这个时候将决定你的关键词是否有机会更加靠前;周四百度会对周三抓取到的数据进行定位,然后排名。而剩下来的几天,保证持续更新就好。
5.收录规则
作为新手站长,一般都会非常关心自己的网站收录情况,而百度在2017年更新算法之后,同样将收录的时间做了调整,由之前的1-2个月,缩短到现在的1-2周。
6.模拟
百度蛛蛛的模拟是为了让SEO更加透明化而给的一个定义,我们可以通过一些平台所提供的模拟工具,来了解百度蛛蛛的工作情况,如百度站长平台、搜外网等。