一、数据挖掘的内在局限性 对数据挖掘技术期望过高,是数据挖掘应用过程中经常出现的一个问题。企业管理人员或者业务人员抱着美好的愿望,希望数据挖掘像“魔杖”一样解决面临的棘手问题,但是如果要求的结果与已有的数据没有关联(或者相关性太小),数据挖掘是无能为力的。一个典型的情况是,企业可能会要求挖掘出客户流失的原因。
二、把数据挖掘当作一个IT项目来做 IT专业出身的管理者,容易把数据挖掘理解成一种管理工具,因此倾向于把数据挖掘建成类似一种MIS的东西,希望有一个界面,登录进去后,点几个按钮,神奇的预测结果就展现出来。这种僵硬的做法有可能窒息数据挖掘的强大威力。有些企业把客户细分模型固化下来,使其对每个月的全体客户用同一模型评分,这样做的目的仅仅是为了保证市场部既定的营销策略能够持续地实施下去。这些企业显然没有想到应该根据市场的变化及时灵活地改变营销策略,或者目前还做不到这样,或者是不太愿意求变,否则他们一定会要求数据挖掘工程师每月生产出数十、上百种客户细分结果,然后像鲨鱼嗜血一般地从中寻找商机的。企业本身严重缺乏专门的数据分析人员,为了省事而要求把数据挖掘做成管理系统一样的东西,也是其中的原因之一。 三、技术采用的偏颇 对数据挖掘算法技术理解的不全面,也可能导致企业只愿意选择那些结果外观容易理解的技术,使得数据挖掘的功能得不到充分发挥。
四、对数据挖掘结果的怀疑 一些企业管理人员,包括一些计算机专业人士,还表现出对于数据挖掘结果的应用缺乏信心。这显然是因为他们没有注意到数据挖掘模型在应用之前有一个检验的工序,模型将在历史数据基础上进行多次精度检验,当然也可以对最新的业务数据进行预测并且稍后检验预测的正确性。模型经过这样的检验后,应该能够打消应用前的担心。还有另一个极端,即对数据挖掘模型的预测能力期望过高,甚至预先指定应该达到某一指标,就像强令医生必须把手术室里的病人治好一样,殊不知挖掘模型的精度受多种因素影响,精度提高都是有一定限度的,勉力为之无异于搞“大跃进”。如果从投资回报(ROI)角度来看问题,则能够比较合理地测算一项数据挖掘工作的实施是否合算,而不需要把目光局限于模型的某一绝对精度上。
五、数据挖掘工具的局限 大家都知道,数据挖掘的60-80%工作量花在数据准备阶段。其实在建模过程也是需要大量的手工劳动的。目前的数据挖掘软件工具中,各算法采用默认的参数设置并不总是最合理的,不能得到最佳的预测模型的,因此对于每个业务新问题,都要重新探索数据的相关性,进行算法参数的重新调整和配置,以得到优化的模型。这也正是当前数据挖掘工程师的价值所在,他们能够根据原理和以往经验做出决定,迅速判断应该如何对模型调优。但是,由于现实问题太复杂,已有的原理并不能始终指导模型的调优方向,更多的时候还是依赖大量的数据试验摸索前进,因此建模的过程也是漫长痛苦的。现有的很多数据挖掘工具并不支持复杂调优过程的自动化。
未来展望: 性能:在过去10多年里,计算机硬件性能的巨幅提升和数据库技术的飞速发展,使得企业级大数据量的计算成为现实,未来若干年里可能仍然如此,但是数据挖掘涉及的数据量会更大。 工具:挖掘工具将越来越强大,汇合的算法越来越多,预测类算法将吸纳颇具新意的算法(支持向量机、粗糙集、云模型、遗传算法等),并将实现算法的自动选择和参数自动调优。遗传编程(GP)、归纳逻辑编程(ILP)类算法的巨大潜力将得到充分发挥。 ..上海企业OA协同办公系统软件专题
|