详细说明
前言:
it运维的本质是“可控”。it运维是一门非常复杂的学问,不像学会两三门语言,设计几个网站应用就可以成为架构师那样的工作。它除了技术之外,经验积累、视野、大局观、甚至是心胸都有可能决定成败。优秀的开发者比比皆是,但是优秀的it运维人员少之又少。
原因就是it运维内容太复杂了!而我为什么说it运维的本质是“可控”,大概有以下几个原因:
第一点:稳定性“可控”
it运维不是维护一两台机器,发布代码就好,而是要做成千上万,甚至十几万台的服务器和各种网络设备、存储设备等专有设备维护,这些服务器包含webserver,DB,cache,cdn,computing多种类型,如何让这些大量的服务器稳定的跑在生产环境中,不因为硬件损坏、发布变更、系统升级而引发的业务系统故障。没有东西是不会坏的,没有系统是没有bug的。硬件要坏,系统升级,发布变更,这些都没有关系,但是最重要的,一旦发生这些之后,it运维人员知道,这会业务影响多大!?需要多少时间和工作量恢复?
第二点:性能“可控”
it运维最痛苦的地方不在于“慢”,而在于时快时慢。一个不稳定的性能,就无法预估承受业务压力需要的系统规模,这样对于维护是无异于自杀。很多云计算厂商做设计的时候,往往也会忽略这一点,其实性能的问题,比最高性能,来的重要的多!非常漂亮的数字不能解决问题,但是一次性能的不足,可能就引发故障。
第三点:安全“可控”
有没有绝对的安全呢?理论上没有,所以,it运维的同学,总要花很多精力在系统安全上,比如控制哪些用户可以登录系统环境?哪些用户是可以进行变更?哪些用户甚至可以拿到最高权限?测试和开发隔离,公司内外隔离,都是因此而生。只要能够控制权限的面积,范围,就能知道风险,这边是所谓的安全“可控”。
重要如上所示,但是正如一开头所说,it运维的内容相当复杂,交付“可控”,变更内容“可控”,效率“可控”都是可以值得深究的东西,因此,无论是“可视化”,“大数据”,“运维自动化”等等,都是在为“运维可控”服务的。数据可视化,带来的是规模可控;运维自动化,带来的是效率可控,风险可控,如是而已。
总结:
每一个点的提升,都是it运维的提升,希望所有从事it运维的同学,都能感受到,做什么可以让“可控力”提升,不要再半夜的时候处理故障,不要和女朋友看电影的时候回公司处理故障,也许我们再次遇到这些问题的时候,可以拿起一杯茶,做一个优雅的it运维。