破五K了更新一下,我们用卡车加专线的方式不停机把集群搬完了,集群高可用,俩机房各一个namenode和resourcemanager,80G带宽专线实际上还是挺卡的。600多机器集群在一个机房ping延迟0.1毫秒,跨机房0.8毫秒,看起来没大多少,实际用起来业务层面几乎不可忍受。早期集群搭建没有做vlan和或生成树协议,导致广播风暴也是一壶。好在那会不是我搭的,不用背锅了。直接修改namenode内存也是这次搬迁成果之一。
1T现在还算大文件么,我司hadoop集群整体搬机房,每台机器3Tx12块盘,合计几十个pb数据,你觉得要怎么搬。
当然我们制定了非常复杂详细的搬迁计划来应对如此大规模的数据迁移,需要保证集群不宕机,而且需要保证非常高效,一天最少要可以迁移2~3PB左右的数据。同时成本要在可控范围内,这是一项非常艰巨且具有挑战性的任务,对于分布式系统的强壮性,容错性,稳定性都是巨大的考验。所以我们做了各方面严格的调研和计算,来保证这最基本的几点要求,整个计划复杂,周密且鲁棒,几乎不可能出现任何错误和异常情况,是一项各部门团队协作的经典案例,是伟大的工程实践。
是的,我们用卡车。