网站首页 软件产品 软件案例 软件资讯 关于我们 联系我们
关于伟创软件
当前位置: 首页 -> 行业资讯 -> 浅析搜索引擎技术
标准软件
CRM-企业客户管理
CRM-个人客户管理
项目管理系统
KM知识管理
HR人力管理
ERP资源管理
定制软件
OA协同办公系统
ERP资源管理计划
CRM客户管理
进销存管理
KM知识管理
HR人力资源管理
搜索引擎
合同管理
档案管理
设备管理
BPM流程管理
考勤管理
成本管理
数据挖掘
智能决策
企业网站
手机端应用
微信端应用
您的位置:浅析搜索引擎技术
 权威软件定制专家
作者:佚名  来源:转载
导语:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

    搜索引擎并不是真正的搜索整个互联网,它搜索的其实是已经预先整理好的网页索引数据库。也就是说,真正意义上的搜索引擎的实际上是,搜集了互联网几千万至几十亿的网页并对网页中的关键词进行索引,建立索引数据库的全文搜索引擎。当我们要查询某个关键字的时候,所有页面包含该关键字网页都会搜索出来,然后经过一定的算法进行排序,这些结果将按照与搜索关键词的相关度高低,依次排序,然后返回给用户 。

     一、搜索引擎技术能解决的问题
            1、搜索引擎的主要功能及工作机制      
             搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面:

     (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; 
    
             (2) 将信息进行分类整理, 建立搜索引擎数据库;    
    
             (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询。

     网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、搜索引擎、Web服务器三个方面进行详细的说明。

    为了更加深刻的理解这种技术,我还亲自实现了一个自己的搜索引擎——数码产品搜索引擎。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条手机信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的产品。在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了数码产品搜索引擎的实现代码来说明,图文并茂、易于理解。

    二、搜索引擎技术的发展历史
    面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
 
    搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWW)平均每天承受大约1500次查询。 

    大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
 
    2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。

    三、搜索引擎的功能
    1、采集信息功能         
    搜索引擎的爬虫程序具有广泛收集因特网上的页面并 通过遍历页面中的超链接来构建一个巨大的信息空间的作用。
   
    2、信息组织和标引功能         
    通过某种算法来组织、标引所抓取的网络页面并以此作为 信息组织、存储和检索依据。通过标引人员把网页信息与用户联系起来使用户能够在大量的信息中查到所需的信息。
    
    3、信息检索浏览功能         
    通过建立索引数据库接受用户的查询,利用信息检索算法 尽可能将最相关最匹配的页面返还给用户达到有效检索的目的。随着搜索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推出了新的功能。

【正文结束】


【下一篇】搜索引擎让引发广告新革命
 在等待采访百度副总裁沈皓瑜的间隙里,百度商业市场部的工作人员带着《成功营销》的记者参观了他们的办公区。他告诉我们,百度的总裁李彦宏先生是一位有着很深中文情节的人,所以他们的会议室名称都是词牌名,最大……

伟创软件业务范围
软件
定制
软件
咨询
研发
顾问
数据
安全
网络
应用
数据
集成
网站
规划
数据
挖掘
企业信息化方案
400-0906-395
第69页 第68页 第67页 第66页 第65页 第64页 第63页 第62页 第61页 第60页 第59页 第58页 第57页 第56页 第55页 第54页 第53页 第52页 第51页 第50页 第49页 第48页 第47页 第46页 第45页 第44页 第43页 第42页 第41页 第40页 第39页 第38页 第37页 第36页 第35页 第34页 第33页 第32页 第31页 第30页 第29页 第28页 第27页 第26页 第25页 第24页 第23页 第22页 第21页 第20页 第19页 第18页 第17页 第16页 第15页 第14页 第13页 第12页 第11页 第10页 第9页 第8页 第7页 第6页 第5页 第4页 第3页 第2页 第1页
 
热线电话:400-0906-395   Copyright © 2008-2018 伟创软件-权威软件定制专家 All Rights Reserved. 京ICP备17005839号    行业资讯