关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

数据中心频频出事,如何挑选到优质数据中心?

发布时间:2017-08-06 13:23:24

前段时间,由于数据中心电力故障,微博遭遇了“黑色一小时”;就在微博还没有从阴影中走出来的时候,饿了么机房也跟着出现了事故;再加上这段时间的先是热浪冲击,后来雷电恐吓,暴雨洗礼,一时间关于数据中心宕机的话题成为了圈内朋友们热烈讨论的话题。其中,讨论最多的就是为什么在配置双路市电并配备UPS系统的情况下还会因电力故障宕机?


2.jpg


既然标榜双路市电+UPS,为何还会因停电宕机?

数据中心是信息整合的核心区域,必须要有充足的电力电源保障,真正的双路供电系统,是从两个独立的变电站引入的两路电源,而两个变电站同时停电的概率极其小,所以数据中心才要求双路供电。双路市电是两路的不同的市电,当其中一路出现问题,另一路就成了“保险”。但是在实际建设过程中,很多数据中心并没有真正的双路供电。

首先,我们需要认清一个问题:双路市电是否必要?目前国内以BAT为主的互联网数据中心在推动单路市电+UPS的方式,但是客观地说,BAT的做法有其业务需要的特殊性,同时,也依托于自身强有力的运维保障,才能做此想。除此之外,纵观国内外相关数据中心标准,均对高等级数据中心有双路市电的要求,并且此处所讲的双路市电,是来自不同变电站的两路市电,并不是来自同一变电站的“伪双路”。这样才能尽可能地保证在遇到紧急情况下,市电供电不发生中断。

其次,有人可能会说既然有应急发电系统和UPS系统,即便市电中断了也没有太大的问题吧?其实不然,UPS后备电池的放电时间很短,最多15分钟。在应急处置情况下,15分钟转瞬即逝,堪称黄金时间,在这15分钟里,要求运维团队发现故障、到达现场、紧急处置后进行切换,一旦一个环节出现问题,就可能导致停电宕机。

最后,数据中心是个复杂的建筑综合体,平衡合规性、经济性、可用性之间的关系之后,认真地进行规划、设计、建设、运营,这样,才能真正持有并平稳运营一座可用性及安全性都不错的数据中心。

70%的数据中心故障都是人为引起的?

70%的数据中心故障都是人为引起的,这句话来自Uptime,这是对数据中心运维操作的合规性进行警示。常见的人为故障可能发生在以下几点:

第一运维操作人员凭经验和手感走天下,认为这套操作流程我天天干,丧失了对工作和操作说明最起码的敬畏之心。这种懈怠的结果,就是发生操作失误,导致严重的后果。因此,不断更新操作说明文档,并严格按照操作程序进行操作,是运维管理者需要注意的问题。

第二安全管控的缺失,缺乏对内和对外的安全管控策略和相关规定。

第三标识管理的混乱,数据中心内应对所有设备进行标识管理,并确保运维操作人员在执行操作前进行核对。

如何多方面综合评判一家数据中心的水平?

评价一家数据中心的水平,应当从三个方面入手:硬件、软件、增值服务。下面就以国内专业云服务商畅行云计算为例详细说明。

首先说硬件,所谓的硬件,是基础设施的水平,包括可用性水平、可靠性水平、安全性水平、能效利用水平。比如畅行云华南多线数据中心,该数据中心由东莞移动和东莞名气通(母公司为香港名气通电讯)联合主导,畅行云计算完成多线BGP网络组建,以及联合中国通信服务有限公司建设及运维。整体设计按照GB50174 A级,参照TIA942 Tier3+级,电力系统、空调系统、通信网络系统满足TIA942 Tier4级,是经中国人民银行总行批准的全国首家金融电子结算中心,具有高安全、高稳定、高级别等优势。

其次是软件,所谓的软件,是运维服务的水平,包括运维服务是否高效、安全、守规章、依流程。运维服务水平,既考验数据中心运维管理体系是否合理、有效;又考验运维服务团队的能力与经验。畅行云华南多线数据中心,通过安防摄像机24小时x365天不间断监控场地并进行数字记录和存档,带有生物识别的双重识别门襟,现场运维团队24小时x365天不间断服务,安全系统符合ISO9001、ISO27001的要求。

再次是增值服务,所谓的增值服务,是针对不同的服务对象,所提供的有针对性的服务。举例来说,对互联网用户,可能是如何满足并保障其瞬时计算能力的需求、防Ddos攻击要求;对金融用户,可能是如何满足安全性的要求。畅行云计算利用自身的技术优势,针对不同行业需求,提供了不同的解决方案,例如:金融解决方案、电商解决方案、游戏解决方案、网站解决方案等。

通过以上分析,不难看出,数据中心建设其实是一个长期、艰苦的过程。用户需要去了解、评估数据中心的性能,而评估中又不能仅从数据中心拥有多少台服务器、多少颗CPU出发,而是需要从硬件设备、运维服务水平、增值服务等方面进行全面的评估。


/template/Home/Zkeys/PC/Static