上个月,我去苏州一家数据中心采访,机房里的温度大约只有18度,冷气从地板底下向上吹,一排排服务器嗡嗡作响,空气里弥漫着机油和电路板的味道。运维主管老张穿着短袖,手里拿着平板,一边走一边跟我说,他们这个数据中心有3000多个机架,光是一天的电费就够买一辆国产车。他说这话时很平淡,就像在说今天食堂吃红烧肉。我站在那儿,突然意识到,我们每天刷短视频、点外卖、视频会议,背后都是这些人在24小时守着那些发光的机器。

数据中心运维听起来很技术,其实本质就是照顾好那些不会说话的机器。温度高了不行,湿度大了不行,灰尘多了也不行。老张他们有个规定,进机房必须穿防静电服,鞋套要包到脚踝以上,连头发都得塞进帽子里。我问他为什么这么严,他说有一次一根头发掉进了服务器的散热风扇,导致风扇转速异常、温度报警,花了两个小时才排查。两个小时意味着什么?意味着那个机柜里可能跑着某家银行的交易系统,或者某个外卖平台的订单系统。头发丝那么细的东西,就能让业务瘫痪。
运维圈子里有个说法,叫“人肉值班”。很多数据中心仍沿用几十年前的作风,安排人坐在监控室盯屏幕。屏幕上有几十个指标——温度、湿度、电压、电流、负载、流量——每个数字都在跳。值班的人必须记住每个指标的阈值,一旦越线,要在30秒内做出反应。我见过一个值班的小伙子,眼睛死死盯着屏幕,手里握着对讲机,后背的汗把T恤都浸湿了。他说最怕凌晨三点,困得要死,偏偏这时候最容易出故障。有一次半夜两点,一个空调压缩机故障,温度从22度一路飙到35度,他一边打电话叫人来修,一边手动开启备用空调,手都在抖。
现在的数据中心运维,跟十年前已经完全不是一个概念。以前一个中型数据中心可能只有几百个机架,运维团队十几个人就够了。现在动不动就是几千个机架、几十万台服务器,光靠人肉值班根本盯不过来。因此出现了所谓的“智能运维”,用 AI 算法分析设备运行数据,预测哪些设备可能在何时出问题。听起来很高级,但老张跟我说,这东西只是辅助工具,真正关键的时候还是要靠人。他举例说,算法预测某个硬盘将在72小时内损坏,结果提前更换后发现硬盘其实还能用两年。算法有时很准,有时也会出错。
运维这行有个特点:不出事时没人记得你,一出事全世界都盯着你。我记得有位运维工程师跟我说,他们的数据中心曾因一次误操作,导致整个华东地区的某电商平台瘫痪了三个小时。那三个小时里,他的手机被打爆,领导骂,客户骂,连他老婆都打电话来问怎么点不了外卖。他说那是他人生中最长的三个小时,坐在机房的地板上,看着服务器指示灯一闪一闪的,觉得自己像个罪人。查明原因是一个实习生误拔了一根光纤。从此,机房所有操作必须双人确认:一个人操作,一个人盯着看。
说到底,数据中心运维的核心问题其实不是技术,而是人。现在这个行业面临一个尴尬局面:年轻人不愿意干。为什么?因为要倒班、值夜班、忍受高压,收入却不高。老张他们公司去年招聘,来了20个人面试,只留下了3人,干了半年又走了2个。留下的只有一位40多岁的老员工,他说自己年纪大了,跳不动了。我问老张以后怎么办,他叹了口气说,要么用 AI 完全替代人,要么涨工资。但现实是,AI 替代不了人的判断力,涨工资又涨不过互联网大厂,左右为难。
我离开那个数据中心时,天已经黑了。老张送我出来,说今天还算太平,没什么大事。我问他什么叫大事,他说比如服务器集体宕机、空调系统全瘫,或者被黑客攻击。他说这些事他干了十五年只遇到过两次,但每一次都让他脱一层皮。我看着他走进机房的背影,突然觉得,我们这些天天上网的人,可能永远都不会知道,那些看似理所当然的网络服务,背后有多少像老张这样的人,在深夜的机房里守着发光的机器,为我们扛着。


