OA | 项目 | 合同 | 知识 | 档案 | CRM | KM | ERP |  设备 |  专题       
伟创首页 易企管 定制软件 解决方案 经典案例 行业资讯
关于我们  |  联系我们  | 400-0906-395

伟创软件:办公软件专家

+ 企业信息化咨询顾问      + 办公软件集成方案      + 企业信息化解决方案     
+ 数据集成及安全方案      + 数据挖掘解决方案      + 移动办公及云办公     
当前位置: 伟创软件 -> 软件服务/产品 -> 浅析搜索引擎技术

在线OA协同办公系统

中国大数据发展的10大趋势

伟创软件 -> 在线OA协同办公系统软件
)身上,而这类角色也将成为推动业务发展战略的中坚力量。国内企业陆陆续续开始设置首席数据官,有的企业已经设置了专职数据部门。趋势二:可视化推动大数据平民化无代码编写要求的应用已经成为企业需要重视的一种可行方案,旨在简化业务用户获取所需信息的流..

全数字化转型的四大要点

伟创软件 -> 在线OA协同办公系统软件
不上真正的人和人之间的交流、人和物之间的交流,所以首先要有联接、要有数据。其次是安全,有了联接、有了数据的传递以后,大家最关心的问题一定是安全。安全一定是重中之重。第三是自动化,有了网络,有了安全基础,也有了数据之后,需要实现真正的自动化,..

如何在云计算虚拟化期间减少安全风险

伟创软件 -> 在线OA协同办公系统软件
物理机上运行了多种虚拟机。如果管理程序中易于受到攻击,攻击者就会利用其进入到整个主机,从而就可以访问每一个运行在主机上的客用虚拟机。由于管理程序很少更新,已有的漏洞会危害整个系统的安全。如果发现了漏洞,关键就是尽快打补丁,组织潜在危害。 ..

 

OA协同办公系统:浅析搜索引擎技术

作者:佚名  来源:转载
导读:OA协同办公系统 ,浅析搜索引擎技术:页中的关键词进行索引,建立索引数据库的全文搜索引擎。当我们要查询某个关键字的时候,所有页面包含该关键字网页都会搜索出来,然后经过一定的算法进行排序,这些结果将按照与搜索关键词的相关度高低,依次排序,然后返回给用户 。      一、搜索引擎技术能解决的问题&
关键词: 协同办公  ERP软件  档案  客户管理  知识管理  项目管理  合同管理 

    搜索引擎并不是真正的搜索整个互联网,它搜索的其实是已经预先整理好的网页索引数据库。也就是说,真正意义上的搜索引擎的实际上是,搜集了互联网几千万至几十亿的网页并对网页中的关键词进行索引,建立索引数据库的全文搜索引擎。当我们要查询某个关键字的时候,所有页面包含该关键字网页都会搜索出来,然后经过一定的算法进行排序,这些结果将按照与搜索关键词的相关度高低,依次排序,然后返回给用户 。

     一、搜索引擎技术能解决的问题
            1、搜索引擎的主要功能及工作机制      
             搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面:

     (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; 
    
             (2) 将信息进行分类整理, 建立搜索引擎数据库;    
    
             (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询。

     网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、搜索引擎、Web服务器三个方面进行详细的说明。

    为了更加深刻的理解这种技术,我还亲自实现了一个自己的搜索引擎——数码产品搜索引擎。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条手机信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的产品。在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了数码产品搜索引擎的实现代码来说明,图文并茂、易于理解。

    二、搜索引擎技术的发展历史
    面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。
 
    搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWW)平均每天承受大约1500次查询。 

    大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。
 
    2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务,本人这里研究的是基于因特网的搜索技术。

    三、搜索引擎的功能
    1、采集信息功能         
    搜索引擎的爬虫程序具有广泛收集因特网上的页面并 通过遍历页面中的超链接来构建一个巨大的信息空间的作用。
   
    2、信息组织和标引功能         
    通过某种算法来组织、标引所抓取的网络页面并以此作为 信息组织、存储和检索依据。通过标引人员把网页信息与用户联系起来使用户能够在大量的信息中查到所需的信息。
    
    3、信息检索浏览功能         
    通过建立索引数据库接受用户的查询,利用信息检索算法 尽可能将最相关最匹配的页面返还给用户达到有效检索的目的。随着搜索引擎的发展和成熟以及用户个性化需求的不断改变,各大搜索引擎网站都陆续推出了新的功能。

..


 
OA  ERP  CRM  进销存  知识  人事  自动化  流程  工程项目  成本  协同  项目  档案  移动  移动平台  合同  电子档案  不动产  国有资产  自建房  宅基地  公租房  国有不动产  设备  销售CRM  客户关系  项目  知识库  人事  ERP  无纸化  资讯 
 
热线电话:400-0906-395  伟创软件-办公软件专家 All Rights Reserved. 产品服务  资讯专题  行业专题  伟创软件  京ICP备17005839号 
项目 | 合同 | 知识 | 档案 | OA | CRM | 设备 | 资讯 | 设备 | 专题 |