媒体监测和推荐平台

名家讲坛

当前位置:首页 > 名家讲坛 > 详细内容

云数据中心的挑战

北京邮电大学张光卫:云数据中心的挑战

一、云计算时代的数据中心供电挑战:

数据中心在云计算环境下,要做哪些改变,怎么样把一个传统的数据中心改造成云的数据中心。

Google在OREGON建立了数据中心,他每天的耗电量和日内瓦相当。英国一个大学里面科学家算,全世界的云计算每天的耗电量相当于100个北京市。耗电量大的同时,怎么样维护强大的心脏的调控,对供电、制冷、可靠性都带来了挑战。传统的情况下对运维来讲,供电的制冷也是一个很大的问题。在云计算环境下,解决这个问题恐怕会更困难,这需要从技术上很多方面有更多的考虑。

云数据中心为什么和传统的数据中心相比供电需求更大了?这和云的本身计算特性有关系。大多数的云架构是虚拟化的计算,拿一个高校来举例子,我买了一台服务器,这台服务器给一个班的学生用、给几个老师用,有点浪费了,我们可以通过虚拟化的技术,把它虚拟化成一百个,这一台机器可以供一百个人使用。那你想想这个机器的工作负荷,满了。因此大多数云计算的虚拟服务器比传统服务器需要更多的供电,配电装置、配电盘和UPS的负担也会更重。

大多数云架构都是超密环境,机柜的配电要求也比传统数据中心要高,特别是一些新云计算数据中心,北京建一个大型的云基地,这个数据中心一开始投入量很大,几万台机器,这就会使机器的密集,在一台机柜上装的服务器比较多。比如用刀片式服务器作为宿主服务器,刀片式服务器是可拆解的,很多台服务器共享一套电气、一台电源一台风扇,这样可以使数据中心的占地面积包括管理都比较容易。

一个传统的服务器机柜一般需要4-6KW的电力,如果不买刀片机架,大概需要30KW的电力,如果设计时没有足够的容量,往往会超出电源和制冷系统。

刚才谈到了云计算环境下用电多了,供电系统出现了一些新的挑战。再看云计算技术对可靠性的要求,在传统环境下,一台机器上跑三台应用不得了了,一般情况下一台计算机对企业来讲状态给它装一套系统。现在不一样了,现在虚拟化了,一台计算机装了多少系统你自己也不知道,你的数据切到哪儿你也不知道。这就意味着,服务器有支持一种应用,单一或者少数应用变为支持多种或者几种应用,这就是一个挑战,一旦宕机了,影响就大了。

云计算运算比较复杂,有的人原来讨论过这么一个话题,云计算是提高了计算效率还是降低了计算效率?这个问题看你怎么去理解,所谓降低了效率,它很多虚拟的环境,你要完成虚拟的计算、存储,虚拟化的管理,必须跑到平台上面,这也是由软件来写的,它本身就是负载。从这一点上来讲,它比传统的耗更多的资源。但从一个宏观的地方,从大的角度上去考虑,它提供的用户多了,从这个角度来讲是节省了资源,而节省的还不是一个数量级的。所以云计算和虚拟化带来灵活性的同时,运算的复杂性,本身就会导致机器宕机,供电都没有问题,制冷也没有问题,宕机了怎么办?云计算就要有调度的机制,一旦宕机,它的工作负荷就转移,而这种转移是通过一定的算法去算的。可能是你这个数据中心内部转移,从这个机器转到那个机器上群,这种调度认为是没法控制的,只能通过算法去控制。这也会引起电路或你这个系统的过载,至于对哪个地方产生了过载这种不好预测,只能存在紧急转移的情况。

二、如何解决云计算数据中心的供电困境:

前面讲到了云计算环境下对供电、制冷、可靠性带来一些挑战,那么改如何出解决这些问题呢?

第一个方面,我们要保证供电与冷却,要从基础设施上,买的电器部件上,机械的物理上增加强度;另外你要采用更加科学的运维手段。

模块式供电,为什么模块式供电能够适应云计算?云计算是弹性的,可扩张的,伸缩性很好,可以随时添加机器。提供的功能上是可伸缩的,基础设施也必然应该是可伸缩的,所以对电源系统来讲,模块式的电源组件可增强系统的可靠性。

冷却,冷却跟供电是两个很重要的问题。传统的冷却系统就是部署机房空调,也有采用热通道- 冷通道,所谓热通道、冷通道,数据中心设备上运转产生热量,降低产生的热量,就要空调给它吹冷风,冷热分开,把热的排出去,把冷引进来,把热源排走了,能够在一定程度上提高制冷的效率,从而产生对流循环。

UPS有模块式的设计,对于制冷现在也有模块式的制冷,但这种制冷可能造价都比较高一些。但这种模块式制冷从满足云计算弹性、伸缩的需求来讲,应该是合理的。

被动式冷却系统,刚才说热通道、冷通道是把热风引出去,把冷风加进来。这个就更加紧密了,在机柜的壳上安装了一个气密的后门和烟囱,用来收集来自服务器的热排风,直接引到空调装置的回风管道里面去,这样风可以进行重新循环。对气密性比较高一些,要严格分离冷和热,要彻底,这也是在云计算环境下的一种思路。

建造多个设备间,UPS和其他的分开,为什么要分开?因为他们对工作温度不一样,这也是一种思路。

改善云架构可靠性的策略,前面讲到制冷和供电,有模块化的UPS,有模块化的制冷和被动式的制冷。从云计算的可靠性策略来讲,我们怎么样保证云计算框架更加可靠?第一要传统的方式,就是通过冗余,N+1冗余是我们经常采用的一种办法。通过冗余这种系统架构,来提高可用性,降低计划外停机的可能。

2N也是一种策略,对于大型云环境是非常理想的。2N的特点是提供两个独立的相同的架构,每个都能独立支撑架构,分别50%,如果是一个路径宕掉了,另外一个就是百分之百来补偿。2N架构和双电源设备配合来使用,给每个电源一个独立的空间,这也是一种思路。

保证可靠性,就要保证你系统的可监管,你要知道你每个设备的工作状况,特别是性能指标,它的温度是怎么样的,服务器的运转率,这个中间件的RO操作强度等等,需要一些监管的东西。但是监管不仅仅是供电,不仅仅是OPS,还有一个监管就是运算系统的监管,软件的中间件通过分析它的一些吞吐,一些CPU的占有率来衡量。当然我们在设计云平台的时候,特别是设计I云的时候,云计算分为I云、T云还是S云,I云层面往往要考虑的一个问题就是监管的功能,对软件系统的监管。

另外一个越来越关注的问题是供电质量,在现在这个环境下,供电质量其实是越来越的情况,以北京为例,地铁越来越多,地铁对供电系统的冲击是很大的,非线性工作的设备往往会导致供电质量的下降。无论是电压、电流或频率上都有体现。传统数据中心在做机房设计的时候也在考虑这样一个问题,在选用UPS的时候,选用比较环保的UPS。但是对一个大型的机房来讲,特别是云计算中心来讲,机器太多了,这么多的机器,构成了一个复杂的系统,这个复杂系统往往导致你没有办法预测是哪块需要加强,没有预计重要程度,只能是从整体上提高供电的质量。以前往往是从外部有很好的考虑,要建数据中心,对接入的市电,还有对电源的保护,油机各个方面考虑的很周到。但是对数据中心内部的电能质量问题,还是相对稍微缺乏一些,因为在数据中心内部,在计算机、UPS边路很多,必然导致数据质量很差,对机房来讲污染最大的就是谐波的问题,机房质量好坏的表现就是热能的聚集,我们一直围绕机房的制冷和散热。电的质量差,会导致温度的上升,一个设备的温度上升,还有线路温度的上升,而线路的温度上升是一种更难发觉的情况。谐波经过一个电缆的时候,分布式电缆会对谐波的吸收,吸收了能量就上升了。




2011年7月4日