1、数据总结。其目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。
2、数据分类。其目的是学会一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。
3、数据聚类。是把一组个体按照相似性归成若干类别,即"物以类聚"。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。
4、关联规则。关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。通过数据挖掘工具,企业可以在凌乱的数据中,找到有用的知识。
5、知识的合成
大多数的发明并不是仅仅基于单一想法,通常是多个创新点的综合产品。大多数的搜索引擎通常被设计成,在使用者提供明确的搜索条件的情况下,能够高效率的搜索与关键词相关的条目的工具。但搜索结果之间是无序的,相互独立的,即使最强大的搜索引擎也不能实现完全智能式的互动搜索。因此,常规的搜索引擎的缺陷就在于不能搜索与人脑中想法相关的知识。现在有一些工具能够帮助人们实现象IdeaFisher等工具,能够将相关的词句组合起来,帮助人们将分散的创新观点整合起来。另外一个工具,称为Inspiration,能够帮助用户形成一种概念图,从而提高使用者对知识进行合成的能力。
6、知识的创新
就目前的技术水平而言,通过机器实现知识的创新还十分困难,虽然人们可以通过搜索引擎大大加强搜索的效率,通过人工智能实现简单的知识推理,达到一定程度的人工智能,但实现自动化的知识创新还十分困难,或者只能实现辅助性的知识创新。例如,名为IdeaGenerator 和 MindLink的工具通过引导人们突破思维定势来提高创新能力。知识的创新是人类最复杂的思维活动,要求机器象人类一样思维是不可能的,但人类可以设计出一些软件模拟人类思维。但即使这样,人们还要等待很长的时间。
..
|