抓取和收录
当你看到出现在Google的搜索结果的那个网页之前,Google在后台已经做了许多步骤。Google的第一步是抓取和收录互联网上的数十亿的网页,这个工作时由Google的机器人Googlebot来完成的,它浏览网络服务器抓取文件。 抓取的程序并不是漫无目的地在互联网上瞎逛,它访问服务器的特定的网页,然后扫描网页上的超文本链接,如果有新的文件也是这样抓取得;蜘蛛程序给每个得到的网页一个号码,这个号码指向它抓取的网页。
蜘蛛程序抓取了很多的网页,但这些网页还不是便于搜索的。如果没有一个索引,你要查询一个词,比如“国内战争”,Google的服务器每次都要读取每一个文件的所有内容。
因此,第二步就是建立索引。我们不是去扫描每一个文件的所有内容,我们巧妙地进行数据的“转换”,列出每一个文件所包含的特定的词,例如,“国内”这个词可能出现在文件3,8,22,56,68和92当中,而“战争”这个词出现在文件2,8,15,22,68和77中。
建立好索引之后,我们就可以开始对网页进行评级,决定网页的相关程度。假设有人在Google的搜索栏输入“国内战争”进行查询,为了提交搜索结果和对结果进行评分,我们要做两件事:
1. 找到包含用户查询的词的网页
2. 给符合的网页按照相关程度进行评级
Google开发出一个有趣的技巧来加速第一步:Google不是把整个索引存储在一台功能强大的计算机上,而是用千百个计算机来存储这些信息。因为任务被分解到许多的计算机,可以更快地找到所需的答案。 详细解释一下,假设一本书的目录有30页,如果一个人要在目录中查寻资料,每次查询都要花几秒钟;如果用30个人每人查询一页目录,显然要比一个人查询的速度快很多。同样的,Google将数据分别存储在许多计算机上,这样搜索的速度会大大加快。
我们是如何找到那些包含用户搜索的词的网页呢?回到“国内战争”的例子,“国内”这个词出现在文件3,8, 22, 56, 68 和92; “战争”出现在文件2, 8, 15, 22, 68和77,记下同时出现这两个词的文件。
国内 3 8 22 56 68 92
战争 2 8 15 22 68 77
国内 战争 8 22 68
Copyright@ 2011-2016 版权所有:大连千亿科技有限公司 辽ICP备11013762-3号 google网站地图 百度网站地图 网站地图
公司地址:大连市沙河口区中山路692号辰熙星海国际2317 客服电话:0411-39943997 QQ:2088827823 37482752
法律声明:未经许可,任何模仿本站模板、转载本站内容等行为者,本站保留追究其法律责任的权利! 隐私权政策声明