OA | 项目 | 合同 | 知识 | 档案 | CRM | KM | ERP |  设备 |  专题       
伟创首页 易企管 定制软件 解决方案 经典案例 行业资讯
关于我们  |  联系我们  | 400-0906-395

伟创软件:办公软件专家

+ 企业信息化咨询顾问      + 办公软件集成方案      + 企业信息化解决方案     
+ 数据集成及安全方案      + 数据挖掘解决方案      + 移动办公及云办公     
当前位置:伟创软件 -> 文章正文

浅析搜索引擎技术

作者:佚名  来源:转载
导语:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
 

    搜索引擎并不是真正的搜索整个互联网,它搜索的其实是已经预先整理好的网页索引数据库。也就是说,真正意义上的搜索引擎的实际上是,搜集了互联网几千万至几十亿的网页并对网页中的关键词进行索引,建立索引数据库的全文搜索引擎。当我们要查询某个关键字的时候,所有页面包含该关键字网页都会搜索出来,然后经过一定的算法进行排序,这些结果将按照与搜索关键词的相关度高低,依次排序,然后返回给用户 。

     一、搜索引擎技术能解决的问题
            1、搜索引擎的主要功能及工作机制      
             搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面:

     (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; 
    
             (2) 将信息进行分类整理, 建立搜索引擎数据库;    
    
             (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询。

     网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、搜索引擎、Web服务器三个方面进行详细的说明。

    为了更加深刻的理解这种技术,我还亲自实现了一个自己的搜索引擎——数码产品搜索引擎。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条手机信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的产品。在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了数码产品搜索引擎的实现代码来说明,图文并茂、易于理解。

    二、搜索引擎技术的发展历史
    面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
 
    搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWW)平均每天承受大约1500次查询。 

    大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
 
    2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。

    三、搜索引擎的功能
    1、采集信息功能         
    搜索引擎的爬虫程序具有广泛收集因特网上的页面并 通过遍历页面中的超链接来构建一个巨大的信息空间的作用。
   
    2、信息组织和标引功能         
    通过某种算法来组织、标引所抓取的网络页面并以此作为 信息组织、存储和检索依据。通过标引人员把网页信息与用户联系起来使用户能够在大量的信息中查到所需的信息。
    
    3、信息检索浏览功能         
    通过建立索引数据库接受用户的查询,利用信息检索算法 尽可能将最相关最匹配的页面返还给用户达到有效检索的目的。随着搜索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推出了新的功能。


【正-文-结-束】

浅析搜索引擎技术

伟创软件 -> 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。..


专业定制软件/服务
OA协同办公系统 ERP企业资源计划 CRM客户管理系统 KM知识管理系统 项目管理系统
合同管理系统 HR人力管理系统 进销存管理系统 流程管理系统 设备管理系统
工程管理系统 社区管理系统 房源管理系统 工时管理系统 档案管理系统
制造业OA办公系统 联合办公系统 考勤管理系统 仓储管理系统 实验室管理系统
零售管理系统 工会管理系统 企业ERP系统 KM知识软件 案件管理系统
供应商管理系统 企业资源计划系统 CRM软件系统 办公自动化系统 采购管理系统
客户管理软件 HR管理系统 知识库管理系统 资料管理系统 电子合同管理软件
产品管理系统 人力资源管理系统 项目管理软件 CRM系统 BPM流程软件
车辆管理系统 生产管理系统 行政管理系统 进销存软件 餐厅管理系统
订货管理系统 医疗管理系统 资产管理系统 销售管理系统 建筑施工管理系统
 
 
关键词: OA  ERP  CRM  KM  HR  合同  ERP  流程  档案  设备  考勤  项目  协同  知识  移动  OA概念  工会  施工  车辆  行政  资产  供应商  物业  工程  工时  不动产  国有资产  自建房  宅基地  公租房  国有不动产 
 
热线电话:400-0906-395  伟创软件-办公软件专家 All Rights Reserved. 资讯专题  行业专题  伟创软件  京ICP备17005839号 
项目 | 设备 | 知识 | 合同 | 档案 | 物业 | 工程 | OA |