丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。然而当前数据可视化工具的种类、质量和灵活性较大的影响数据挖掘系统的使用、解释能力和吸引力。 为此,本系统使用分布式大数据处理技术进行数据的存储和计算,构建一个数据挖掘可视化平台,以多种挖掘算法的实现对原始数据集进行挖掘,从而发现数据中有用的信息。 数据挖掘的几个研究热点主要包括数据流挖掘、文本挖掘、Web挖掘、及生物信息数据挖掘四个方面。 (1)数据流挖掘 通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各 类传感器网络中的检测数据流、金融领域的证 券数据流、卫星传回的图像数据流以及零售业 务中的交易数据流等形成了一种与传统数据 库中静态数据不同的数据形态——数据流。 数据流实时、连续、有序、快速到达的特 点以及在线分析的应用需求,对流数据挖掘算 法提出了诸多挑战,其中最主要的挑战是使用 小的存储空间和少的运行时间快速地进行必 要的处理,传统的处理方法难以满足这种要求。 (2)文本挖掘 文本挖掘是近几年来数据挖掘领域的一 个新兴分支,文本挖掘也称为文本数据库中的 知识发现,是从大量文本的集合或语料库中抽 取事先未知的、可理解的、有潜在实用价值的 模式和知识。 目前,国外的文本挖掘研究已经从实验性 阶段进入到实用化阶段,著名的文本挖掘工具 有:IBM的文本智能挖掘机、Autonomy公司的 Concept Agents、TelTech公司的TelTech等。但 是,国内正式引入文本挖掘的概念并开展针对 中文的文本挖掘研究是从近几年才开始的。 (3)Web挖掘 Web挖掘定义为:从Web文档、Web活 动中抽取感兴趣的、潜在的有用模式和隐藏信 息。 Web挖掘的研究主要有3种,即Web结 构研究、Web使用研究和Web内容研究。 Web挖掘广泛应用于搜索引擎、网站设计 和电子商务等领域。面向Web的数据挖掘比面 向数据库和数据仓库的数据挖掘要复杂得多, 这是由于互联网上异构数据源环境、数据结构 的复杂性、动态变化的应用环境等特性所决定 的。 (4)生物信息数据挖掘 人类基因组计划的启动和实施使得核酸、 蛋白质数据迅速增长,这些海量的数据需要被 合理的存储、组织和索引,信息科学被引入这一领域就形成了“生物信息学”。生物信息学是定义为生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。它应用先进的数据管理技术、数学分析模型和计算机软件对各种生物信息进行提取、储存、处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。显然,数据挖掘在生物信息中具有重要的作用,生物信息数据挖掘通过利用数据挖掘技术和方法来发现对分子生物学有价值的知识。数据挖掘与生物信息学有很好的结合点,其在生物信息学领域的应用潜力日益受到人们的重视。 随着越来越多的业务需求被不断开拓,数据挖掘已成功应用于社会生活的方方面面,目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术。 以下是未来比较重要的数据挖掘发展趋势: 1.数据挖掘技术与特定商业逻辑的平滑集成问题; 2.数据挖掘技术与特定数据存储类型的适应问题; 3.大型数据的选择与预处理问题; 4.数据挖掘系统的构架与交互式挖掘技术; 5.数据挖掘语言与系统的可视化问题; 6.数据挖掘理论与算法研究; 7.与数据库数据仓库系统集成; 8.与语言模型系统集成; 9.挖掘各种复杂类型的数据; 10.支持移动环境; 【正-文-结-束】
未来OA办公系统发展的三大趋势伟创软件 -> 一个企业想要走系统管理化道路,只有一个管理系统是不完备的,如CRM、HR、ERP等企业必备软件在实际使用中会形成信息孤岛。企业是个有机的整体,不同系统和数据间的交换是必要的..
|