大数据的定义是高科技领域内非常精细的事件驱动数据的采集和分析。这涉及到互联网的派生数据,这些派生数据的规模远远超出了网站的分析能力。它还与传感器数据相关,而对于大部分传感器数据我们直到最近才丢弃。现在,那些有很大价值的数据,将更有利于我们深入了解业务运转和与客户的互动。对我来说,这才是能否被称为大数据的标准。 但是,事件驱动数据集容量实在是太大了,以致于交易数据库系统不能有效地运转。大数据,如Hadoop、复杂事件处理(CEP)和大规模并行处理(MPP)系统是专为这种较大的工作负荷量开发出来的。未来,交易系统将得到改进,但它们也永远有一个障碍,即它们并没有被设计和应用。
大数据正在成为主流,它从科学和高科技公司的专用技术转变为企业IT应用程序的专用技术。大数据作为IT工具的主流,对IT领域有重大的影响,其可用性和易安装标准是高于科学与高科技公司界对大数据的要求的。这就是为什么我们会看到像微软这样的公司,可以通过Web浏览器来实现利用云基础大数据技术,从而进军游戏行业。 为了更好的使大数据与企业相融合,我们应该实现技术的细化和降低经营成本。眼下,很多大数据工具都是粗糙的或昂贵的,或者是需要能够实施操作的高度专业化的技术人员的辅助。不过,这种情况正在逐渐改变,而且,它从侧面也证明了大数据革命的光明前景。 Spreadmarts不是大数据,但他们也有自己的作用大数据和我们习惯使用的电子表格模型和数量运算有什么不同吗?电子表格技术员们一直在做分析,但肯定不是大数据,因为Excel不符合前面对大数据集的定义。直到2007年,Excel才可以处理超过有16,384行的电子表格。但是,它还是不能处理较大的业务数据量,这方面它比大数据逊色许多。 当然,大数据分析的结果可以利用Excel来进一步计算和探讨。事实上,微软已经开发了一个与Excel连接的附件,与Hadoop连接的数据仓库接口,还有象征性的大数据技术。大数据工作就像经过以Excel为基础的分析和粗糙的编辑之后的后期制作。 从另一方面上看,BI(商务智能)和DW(数据仓库)是相辅相成的,这对大数据而言是一件好事。大数据让落后的、传统的技术,为涵盖比以前更广的操作和交互范围的数据集提供见解。我们可以在全新的环境下继续使用熟悉的工具,从而实现对看似不可能或随意的事情的访问。
|