1、从互联网上抓取网页
专门用于检索信息的Robot程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自 动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在 Wan-derer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个 网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
2、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3、索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排✱名越靠前。?后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
联系方式
公司固话: 020-85557485/85675730
独立站seo优化
网站推广优化
英文网站优化
独立站seo优化
独立站seo优化
网站推广优化
英文网站优化
独立站seo优化
腾讯微信公共号
公司地址: 广州市白云区白云大道北628号211创意园3层310室
广州优搜科技发展有限公司 版权所有 备案号:
声明:如果本站有使用不当的极限词汇,并非本站之意愿,本站郑重声明所有极限词汇全部作废
广州优搜科技发展有限公司 版权所有 备案号:
声明:如果本站有使用不当的极限词汇,并非本站之意愿,本站郑重声明所有极限词汇全部作废