Google收录及排序网页流程揭秘

作者：billionnet 发布于:2012/6/11 11:28:08 点击量：

抓取和收录

当你看到出现在Google的搜索结果的那个网页之前，Google在后台已经做了许多步骤。Google的第一步是抓取和收录互联网上的数十亿的网页，这个工作时由Google的机器人Googlebot来完成的，它浏览网络服务器抓取文件。抓取的程序并不是漫无目的地在互联网上瞎逛，它访问服务器的特定的网页，然后扫描网页上的超文本链接，如果有新的文件也是这样抓取得；蜘蛛程序给每个得到的网页一个号码，这个号码指向它抓取的网页。

蜘蛛程序抓取了很多的网页，但这些网页还不是便于搜索的。如果没有一个索引，你要查询一个词，比如“国内战争”，Google的服务器每次都要读取每一个文件的所有内容。

因此，第二步就是建立索引。我们不是去扫描每一个文件的所有内容，我们巧妙地进行数据的“转换”，列出每一个文件所包含的特定的词，例如，“国内”这个词可能出现在文件3，8，22，56，68和92当中，而“战争”这个词出现在文件2，8，15，22，68和77中。

建立好索引之后，我们就可以开始对网页进行评级，决定网页的相关程度。假设有人在Google的搜索栏输入“国内战争”进行查询，为了提交搜索结果和对结果进行评分，我们要做两件事：

1. 找到包含用户查询的词的网页

2. 给符合的网页按照相关程度进行评级

Google开发出一个有趣的技巧来加速第一步：Google不是把整个索引存储在一台功能强大的计算机上，而是用千百个计算机来存储这些信息。因为任务被分解到许多的计算机，可以更快地找到所需的答案。详细解释一下，假设一本书的目录有30页，如果一个人要在目录中查寻资料，每次查询都要花几秒钟；如果用30个人每人查询一页目录，显然要比一个人查询的速度快很多。同样的，Google将数据分别存储在许多计算机上，这样搜索的速度会大大加快。

我们是如何找到那些包含用户搜索的词的网页呢？回到“国内战争”的例子，“国内”这个词出现在文件3，8， 22， 56， 68 和92; “战争”出现在文件2， 8， 15， 22， 68和77，记下同时出现这两个词的文件。

国内　3 8 22 56 68 92

战争　2 8 15 22 68 77

国内　战争 8 22 68

本文地址：http://www.billionseo.com/b/201261231.html

分享到：

【刷新页面】【加入收藏】【打印此文】【关闭窗口】

上一篇：影响google信任指数的13因素分析
下一篇：SEO常用高级搜索语法小结

公司地址：大连市沙河口区中山路692号辰熙星海国际2317 客服电话：0411-39943997 QQ：2088827823 37482752

法律声明：未经许可，任何模仿本站模板、转载本站内容等行为者，本站保留追究其法律责任的权利！隐私权政策声明