搜索引擎的蜘蛛抓取网站页面的一般过程是这样的。
首先,收集待索引网站网页的url。
搜索引擎的蜘蛛一般分为两类,这第一类的主要工作就是收集网页的中有效的URL。它们的任务是一刻不停地扫描Internet资源,以随时更新其搜索引擎庞大的url列表以供它的第二类蜘蛛使用。也就是说,当这一类蜘蛛访问我们网页的时候,并不在于索引我们的网页,而是在寻找网页中的所有有效链接。
关于有的站长在自己的访问日志中发现多个蜘蛛IP爬自己站的情况。
我们常用的搜索引擎每天要处理数以亿计的信息,没有一个大型的搜索引擎公司(GOOGLE或百度之类)不配备上万台服务器来共同执行这个工作,因此搜索引擎都拥有不同的数据中心,也就是说有多个robots来检索你的站是很正常的事情。
不过这也仅限于第一类蜘蛛,在索引页面的时候,搜索引擎会限制某个特定的数据中心来让专门索引页面的蜘蛛检索你的站。
因此朋友们从服务器访问日志中时常可以看到源自不同IP的蜘蛛,在很短的时间内频繁访问网站。不过千万不要高兴得太早,也许其根本不是在索引你的网页而只是在扫描url。
补充一下,第一类蜘蛛索引时记录的信息主要包括网页的url、最终修改时间等
至于网页的Head信息是第一类蜘蛛来获取还是第二类来获取,很多人都有不同的看法,但我还是比较赞成第一类蜘蛛访问时就能索取这个信息。
Copyright@ 2011-2016 版权所有:大连千亿科技有限公司 辽ICP备11013762-3号 google网站地图 百度网站地图 网站地图
公司地址:大连市沙河口区中山路692号辰熙星海国际2317 客服电话:0411-39943997 QQ:2088827823 37482752
法律声明:未经许可,任何模仿本站模板、转载本站内容等行为者,本站保留追究其法律责任的权利! 隐私权政策声明