搜索引擎爬虫Spider/Crawler/Robot工作原理
用户在搜索引擎中输入关键词进行搜索时,搜索引擎并不直接去网络上查找用户所要的信息,而是通过查询已经建好索引库来为用户返回结果,用户再根据返回结果中的链接提示去访问信息源站点的页面来获取相应的信息; 基于ROBOT的搜索引擎与目录式搜索引擎都需要维护自己的索引库,而元搜索引擎则直接使用前二者的搜索资源,再根据自己的方式进行筛选、排序,将结果返回给用户 ...
通用搜索引擎系统一般由爬行器 Spider/Crawler、页面存储 Page Repository、索引器 Indexer、索引库 Indexes、检索引擎 Query Engine等部分构成 ...
多数情况下,Crawler 并不下载Web上所有页面,即使是复杂搜索引擎,其索引库中能检索到的页面也只占整个Web页面的一部分; 所以 Spider 优先选择重要页面进行下载,以保证下载部分更有价值 ...
Crawler下载的页面,它会周期性的访问原始页面地址,看其是否是更新过的; Web上的页面内容可能变化非常快,Crawler必须决定以不同的频率访问不同的页面 ...
页面存储系统用来存储与管理Crawler下载到的页面,这种存储系统只需要一些基本的功能,如必须为Crawler提供存储页面的接口,为索引器和集合分析模块提供高效的页面访问API; 它管理的数据对象是Web页面,这一点类似于其它文件系统和数据库系统 ...
索引的作用是加快用户对信息查询速度,它通过牺牲存储空间来换取时间; 索引器创建两种基本索引:文本内容索引和结构链接索引 ...
检索是将检索词与关键字索引进行匹配的过程,索引结构在很大程度上决定了检索效率,文档的逻辑表示在数据库建设完毕时就已经定型,匹配能力在系统设计完成后也已经确定,这些都是固定的,用户检索时所能做的仅仅是修改信息需求逻辑表示和提供一些反馈信息 ...