OA | 项目 | 合同 | 知识 | 档案 | CRM | KM | ERP |  设备 |  专题       
伟创首页 易企管 定制软件 解决方案 经典案例 行业资讯
关于我们  |  联系我们  | 400-0906-395

伟创软件:办公软件专家

+ 企业信息化咨询顾问      + 办公软件集成方案      + 企业信息化解决方案     
+ 数据集成及安全方案      + 数据挖掘解决方案      + 移动办公及云办公     
当前位置: 伟创软件 -> 软件服务/产品 -> 浅析搜索引擎技术

企业常用OA协同办公系统

开放政府数据,建设透明政府的必要性

伟创软件 -> OA协同办公系统
用程序、140个移动应用。欧盟European data portal欧洲数据门户网站,涵盖34个欧洲国家,包括医疗、教育、交通、能源、食品、环境、科技、人口、司法等13大类,超过24万个数据集,欧盟各国公民通过这个门户网站可无缝获取公共数据。 发达国家作为全球开放数据的主要参与者,在政府数据开放的范围和程度、安全和形式、开放许可证和质量管理、开放..

面向服务架构与应用软件的不同之处

伟创软件 -> OA协同办公系统
是紧偶合、封闭式、自成体系,属于一次性投入一次性完结的产品。这样的产品很难适应或快速响应市场或客户灵活多变的需求,以及后续的扩展。在这样的市场、及客户需求下,从而催生了软件产品一种新的设计或架构的理念:面向服务架构(SOA架构),那么面向服务架构与应用软件的不同之处在哪呢?   面向服务架构其原理是,通过分析服务之间的相互调用,SOA使得公司管理..

推荐专题简单介绍oa系统   酒店行业oa软件现状分析   移动oa软件优点   oa协同系统实施分析   oa系统选型   实现OA协同办公系统意义   OA协同办公系统特点分析   企业oa办公系统现状分析   协同oa系统存在意义   oa办公管理系统价值   
 

浅析搜索引擎技术

作者:佚名  来源:转载

    搜索引擎并不是真正的搜索整个互联网,它搜索的其实是已经预先整理好的网页索引数据库。也就是说,真正意义上的搜索引擎的实际上是,搜集了互联网几千万至几十亿的网页并对网页中的关键词进行索引,建立索引数据库的全文搜索引擎。当我们要查询某个关键字的时候,所有页面包含该关键字网页都会搜索出来,然后经过一定的算法进行排序,这些结果将按照与搜索关键词的相关度高低,依次排序,然后返回给用户 。

     一、搜索引擎技术能解决的问题
            1、搜索引擎的主要功能及工作机制      
             搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面:

     (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; 
    
             (2) 将信息进行分类整理, 建立搜索引擎数据库;    
    
             (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询。

     网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、搜索引擎、Web服务器三个方面进行详细的说明。

    为了更加深刻的理解这种技术,我还亲自实现了一个自己的搜索引擎——数码产品搜索引擎。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条手机信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的产品。在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了数码产品搜索引擎的实现代码来说明,图文并茂、易于理解。

    二、搜索引擎技术的发展历史
    面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
 
    搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWW)平均每天承受大约1500次查询。 

    大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
 
    2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。

    三、搜索引擎的功能
    1、采集信息功能         
    搜索引擎的爬虫程序具有广泛收集因特网上的页面并 通过遍历页面中的超链接来构建一个巨大的信息空间的作用。
   
    2、信息组织和标引功能         
    通过某种算法来组织、标引所抓取的网络页面并以此作为 信息组织、存储和检索依据。通过标引人员把网页信息与用户联系起来使用户能够在大量的信息中查到所需的信息。
    
    3、信息检索浏览功能         
    通过建立索引数据库接受用户的查询,利用信息检索算法 尽可能将最相关最匹配的页面返还给用户达到有效检索的目的。随着搜索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推出了新的功能。

..


 
关键词: OA  ERP  CRM  KM  HR  合同  ERP  流程  档案  设备  考勤  项目  协同  知识  移动  OA概念  工会  施工  车辆  行政  资产  供应商  物业  工程  工时  不动产  国有资产  自建房  宅基地  公租房  国有不动产 
 
热线电话:400-0906-395  伟创软件-办公软件专家 All Rights Reserved. 资讯专题  行业专题  伟创软件  京ICP备17005839号 
项目 | 设备 | 知识 | 合同 | 档案 | 物业 | 工程 | OA |