大数据和云计算的鞍马情-【软件和信息服务】2014.08

时间:2014-08-22 02:56:46   收藏:0   阅读:404

自从VMware在2013年的全球用户大会上推出vSphere Big Data Extention(BDE)以来,大数据这匹骏马越来越受到大家的追捧。当然BDE主要针对是Hadoop的大数据应用,其实大数据不仅仅是Hadoop,即使只算Hadoop也还有不同的发布版本。但是无论Hadoop的哪个版本或者哪个大数据平台,都蜂拥开始追随云计算,就像好马配好鞍一样重要,那怎样的云计算平台才是大数据的好鞍呢?

运行环境平台:多租户、资源供应和管理

  在过去几个月的客户沟通中,我听到了运行大数据的多种不同平台,包括Twitter使用的Mesos、Fedex使用的虚拟化和Yahoo使用的Yarn。而不同的云计算平台特性能解决大数据应用的不同问题。比如:Yarn的目标是支持Hadoop上的非M-R应用。而Twitter使用的Mesos则可以支持混合的负载,并且会利用操作系统的虚拟化。由于企业的大数据应用场景往往是多样的,所以需要选择一种平台适合不同的应用场景,这包括:

网络的挑战

  对网络而言,挑战和机遇并存。今天两层核心聚合交换网络不能跨机架提供足够的带宽。机架内的带宽应该没有问题,经常可以达到每秒几百Gbit,但机架间的带宽往往十分有限,为此往往需要优化流量到本地,也就是数据和计算完全整合的模式。幸运的是,新的网络拓扑,包括CLOS和主干加分支设计都提供了很好的解决方案。使用这些新型的网络拓扑,可以在整个集群延时基本恒定的情况下确保足够的带宽,无论是机架内还是机架间都不会有带宽问题。

存储平台的选择

  随着存储技术的不断发展,大数据的存储选择越来越丰富。当然Hadoop的HDFS处于最核心圈,但其他的存储平台也可以提供跟Hadoop类似、即插即用的兼容能力,并且提供了某些独特的价值。几个主要的存储选项如下:

  传统的SAN或者NAS:这应该算是支撑大数据应用的最佳存储选项,因为目前大量的数据中心都可以提供这样的存储选项,并且也包括了各种存储服务,例如:快照、归档、复制等;

  服务器内置磁盘构建的软件定义存储:这方面HDFS是主要的代表,其他的选项包括CEPH、Gluster和MAPR,他们都可以建立文件系统,满足大数据的应用;

  横向扩展存储方案:很多独具特色的新兴公司提供了可以替代HDFS横向扩展存储,很好解决了成本和带宽问题。比如Isilon的横向扩展存储方案,提供了3到144个节点的解决方案,可以扩展到15PB、每秒85GB吞吐能力,成为横向扩展存储的典型代表。

通过vSphere平台运行大数据

  VMware推出的BDE方案也在不断进步中,为各种不同版本的Hadoop运行提供了强大的支撑。目前BDE已经可以和vCloud Automation Center结合来提供Hadoop集群的自助创建,借助vSphere平台让最终用户可以快速自助创建应用,大数据的部署难题迎刃而解。大数据平台具有了自动化、自助服务能力,让大数据再也不是极客的专利,任何大数据应用的开发者、管理员都只需要专注自己的大数据应用本身,而无需关心底层的架构。

注:本文已经发表在《软件和信息服务》2014年8月刊上,如果想了解@云界漫步 对云计算的最新观点,请直接订阅“中国云梦”微信公众号。也可微信扫描下面的二维码,直接订阅。订阅”中国云梦“后,直接回复”20007“阅读该文。

bubuko.com,布布扣

本文出自 “中国云梦” 博客,请务必保留此出处http://virtualman.blog.51cto.com/200540/1543278

大数据和云计算的鞍马情-【软件和信息服务】2014.08,布布扣,bubuko.com

原文:http://virtualman.blog.51cto.com/200540/1543278

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!