“大数据”来袭时,传统的数据存储方式已不能满足要求,需要开展分布式存储的研究,大数据分布式存储主要考虑以下几个问题: 1)存储资源管理方法 为了解决集群存储环境下的存储资源管理问题,采用存储资源映射方法通过在物理存储资源和虚拟存储资源请求之间建立合理的映射关系,来进行有效的存储资源管理。国内外相关研究提出合理的集群存储资源映射方法,将虚拟存储资源请求均匀地分配到节点上,然后进行节点内部设备级别的资源映射。 2)支持多用户的资源使用和存储环境隔离机制 当用户数量增多,有限的存储资源已经不能满足用户对该类资源的需求时,用户与资源的矛盾就会突显出来。解决这种矛盾的最有效办法就是采取有效资源共享机制,将有限数量的资源按需动态共享给多个用户使用。此外,在存储资源共享的同时,从用户角度看每个应用系统是独立的,不依赖于其他应用系统运行而运行,也不受其他应用系统和资源的运行结果影响,因此需要存储环境隔离技术来屏蔽各个应用系统对存储资源运行的互相影响。 研究表明,利用存储虚拟化技术来整合不同厂商的存储系统。通过隔离主机层与物理存储资源,存储虚拟化技术可以将来自于不同存储设备(即使是不同厂商的设备)的存储容量汇集到一个共享的逻辑资源池中,这样存储的管理就更容易了。任何单体存储阵列所创建的物理卷的容量都是有限制的,而多个异构的存储系统联合在一起就可以创建出一个更大的逻辑卷。 3)基于Hadoop的大数据存储机制 大数据的各类描述方式的多样性,存在着结构化数据、半结构化数据和非结构化数据需要进行处理。对于结构化数据,虽然现在出现了各种各样的数据库类型,但通常的处理方式仍是采用关系型数据知识库进行处理;对于半结构化和非结构化的知识,Hadoop框架提供了很好的解决方案。 Hadoop分布式文件系统HDFS是建立在大型集群上可靠存储大数据的文件系统,是分布式计算的存储基石。基于HFDS的Hive和HBase能够很好地支持大数据的存储。具体来说,使用Hive可以通过类SQL语句快速实现MapReduce统计,十分适合数据仓库的统计分析。HBase是分布式的基于列存储的非关系型数据库,它的查询效率很高,主要用于查询和展示结果;Hive是分布式的关系型数据仓库,主要用来并行处理大量数据。将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。使用HBase存储大数据,使用Hive提供的SQL查询语言,可以十分方便地实现大数据的存储和分析。
|