关于实现知识库智能检索的技术说明
知识管理中心通过对公司现有知识资料的梳理,已经建立了庞大的数据系统,现在最大的问题是数据的检索成为知识库发挥最大效率的短板,根据知管中心要求、内部员工使用反馈,特制定以下解决方案,以供参考:
第一步:实现上传附件同时自动生成附件摘要; 自动从word、ppt、excel、txt等文件中获取摘要信息,为下一步的全文检索建立基础,当然,也可以跳过这一步,采用现有手动加标签的方式实现全文检索。但是自动索引机建立摘要是发展的趋势、适合大量数据的处理、检索结果也更精准; 开发难点:需要编写程序自动从word、ppt、excel、txt等获得文本信息并生成摘要,类似百度等搜索引擎采集原始数据存入数据库并建立索引;
第二步:实现全文检索; 现有系统仅支持单个词语的模糊检索及多个词语的简单检索,而全文检索可以实现全方位的检索,具体功能参照百度、谷歌等搜索引擎,可以实现任意词组的组合查询; 开发难点:中文分词及语境分析是全文检索的难点,也是各个搜索引擎核心技术,目前我们也已经开发自己的分词技术并取得了不错的效果;
第三步:建立在线文库; 在实现全文检索的基础上可以直接在线预览,形成在线文库,具体功能参照百度文库; 开发难点:通过程序自动将各类文件转化成可以在线预览的文件并建立索引;
通过以上几个步骤,可以实现知识库高效、全方位的应用,最终建立起类似百度网页检索、百度文库等高级应用系统。
..
|