从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率。粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容。大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面。
1、大数据经常具有多层次/多粒度特性
1990年,我国著名科学家钱学森先生在其论文《一个科学新领域|| 开放的复杂巨系统及其方法》 中就指出: \只有一个层次或没有层次结构的事物称为简单的系统, 而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统。任何一个复杂系统都是一个具有层次结构的系统"。Friedman 等在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性。Clauset 等在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构。Ahn等则专门研究了大数据的多尺度复杂性。著名社会网络科学家Watts 在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求。大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生。这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性。
2、挖掘任务通常呈现多层次/多粒度特性
数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性。比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品。这就使得挖掘任务可能同时面向不同层面、不同方面。挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制。
3、大数据挖掘要求算法具有高效近似求解性
在2012年出版的大数据著作《大数据时代: 生活、工作与思维的大变革》 中指出:大数据意味着所有数据。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。因此,大数据挖掘首先要解决\大数据能算的问题",这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略, MapReduce 正是基于这种策略在大数据管理方面的实践结果。
基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标。
大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战。与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对\独立同分布假设" 的破坏使得追求问题的最优/精确解变得几乎不可能,迫使我们转向寻找问题的满意近似解。另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解。
综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性。鉴于这一认识,可以推测: 粒计算将为大数据挖掘提供一条极具前途的崭新途径。
|