中小型企業中如(rú)何做(zuò)一(yī)個合格的(de) IT 運維工程師
發布時間:2023-05-11 閱讀: 分享

運維行業 IT 工程師分類 


1、辦公網MIS工程師

2、機房IDC支持工程師

3、系統工程師

4、應用運維工作師

5、網絡工程師

6、安全工程師

7、DB工程師

8、大數據工程師

9、SRE工程師

10、運維開發工程師

11、虛拟化工程師(KVM、Docker、k8s、Openstack等)

12、機房弱電工程師等等


運維工程師職責


運維工程師的(de)職責,就是領導安排你的(de)任務,能夠按時完成,不能給領導找麻煩,并且領導還會要求你負責的(de)服務要保證4個9或者5個9,那麽這裏服務的(de)提供商指的(de)是誰?其實就是我們運維同學(xué)、沒有其他人,就是在我們提供的(de)服務與用戶(RD、QA、或者外部用戶等)之間定義的(de)一(yī)種雙方認可(kě)的(de)協定,一(yī)旦協定達成、目标确認後直接挂勾你的(de)KPI,當然有些工種,不太适合使用SLA來定義,但大部分運維工作都适用SLA,為(wèi)了完成KPI,你就會主動的(de)提升服務可(kě)用性、穩定性、為(wèi)部門減少成本、提高(gāo)工作效率,今天簡單介紹下運維工程師的(de)行為(wèi)準則。

1年(nián) = 365天 = 8760小時
99.9 = 8760 * 0.1% = 8.76小時
99.99 = 8760 * 0.01% = 52.6分鍾
99.999 = 8760 * 0.001% = 5.26分鍾


這裏說明一(yī)下,一(yī)定不要再沒有數據支撐的(de)情況下,向領導承諾4個9或者5個9,切忌!!要用數據說話,說過就要做(zuò)到。


穩定性


1、敬畏之心


(1)操作之前能備份的(de),一(yī)定要備份,不要省略,往往它能快速救你一(yī)命;

(2)線上操作必須得到授權,并在測試環境驗證過,或者有多數人共同決策後操作,别自(zì)做(zuò)主張;

(3)能用工具操作的(de)事情,别手動上去(qù)敲所謂高(gāo)大上的(de)命令,能提前寫成腳本操作的(de)、不要手動操作;

(4)對線上有影響的(de)操作,需要評估流量低(dī)峰時間段、錯開流量高(gāo)峰(前提得到授權、腳本準備、回退步驟、驗證腳本等等);

(5)未加基礎報警前,請不要上線,一(yī)定要報警先用業務上線;

(6)做(zuò)為(wèi)運維工程師對報警系統的(de)敬畏之心,早上的(de)例行巡檢,對曆史故障歸納總結等;


線上事故基本上都源于以上幾條,大部分故障都源于未經授權、未在測試環境驗證、RD所謂的(de)免測、運維人員的(de)自(zì)信、報警無人關注等導緻人為(wèi)事故;


2、故障


(1)故障發生,優先恢複業務,而不是在哪裏定位問題;

(2)對棘手故障需要有故障升級通道(dào),由 Leader 協調一(yī)切可(kě)利用資源;

(3)運維工程師按流程操作導緻的(de)故障,不記錄該員工KPI考核中,記錄在Leader KPI考核中,推進流程整改;

(4)沒有按流程操作、導緻線上重大故障的(de),記錄在該工程師與 Leader KPI 考核中,共同對故障負責;


故障不可(kě)怕、怕相同故障多次發生,不以發生故障為(wèi)恥、而為(wèi)發生相同故障為(wèi)恥;


3、故障casestudy


(1)故障發生渠道(dào)、發現時間點、參與人、故障定位過程、解決過程、故障根因分析,是否需要形成應急預案;

(2)故障是臨時解決,還是永久解決、現有環境中是否有類似隐患;

(3)臨時解決的(de)需要給出整改計劃,整改計劃中需要設置跟進人員(PMO)、驗收人員(Leader);


很多公司的(de)casestudy都流于形式,并沒有切實執行落地(dì),所以需要增加 Leader 驗收,下次再有類似故障,Leader全責。


4、變更


(1)配置代碼必須遵循藍綠發布原則,測試環境确認無問題後,再上線;

(2)備份的(de)重要性、回滾機制的(de)建立;

(3)操作步驟命令或者工具化、而不是模棱兩可(kě)的(de)文字描述;

(4)QA 自(zì)動化測試用例、變更失敗後的(de)回滾機制等;


故障的(de)發生70%以上是變更造成的(de),對變更要有敬畏之心。


5、輪值


(1)運維人員在輪值期間、一(yī)定要保證7*24小時待命和(hé)報警的(de)随時響應,電腦和(hé)網絡随時可(kě)用,缺一(yī)不可(kě);

(2)值班期間做(zuò)好故障處理(lǐ)、日常工作進度記錄,故障用于後續分析,工作進度用于把未處理(lǐ)完成的(de)事務交接給下一(yī)周期值班人跟進;

(3)當值過程中出現棘手故障,不能簡單交接下一(yī)值班人,需要根據實際情況确認是否有當值人員處理(lǐ)完後,再下班;

(4)需要把輪值期間發現的(de)故障問題,定期組織輪值人員進行學(xué)習。


沒有參與過輪值的(de)運維工程師,是另人羨慕的(de)。


6、業務交接


(1)沒有完整交接文檔的(de)業務不要接手,接手之後沒有完全弄明白前,不要說交接完成;

(2)業務接手後,需要根據實際情況進行故障演練,确保有可(kě)能的(de)故障點;

(3)尤其是離(lí)職人員的(de)業務交接,更需要認真負責、簽字,一(yī)旦簽字,你要承擔起所有責任,KPI 中需要有明确關于業務交接的(de)獎懲措施;


部分公司業務交接基本流于形式,沒有認真履行職責。


安全意識


安全是運維工作開展的(de)前提和(hé)必要條件,有同行描述這是一(yī)種唇亡齒寒的(de)關系,實為(wèi)貼切。安全上出了問題,造成的(de)影響以及後續的(de)修複工作都将有運維來承擔,公司到了一(yī)定規模都會将安全和(hé)運維劃分為(wèi)兩個獨立團隊,這樣做(zuò)事更專注,也容易做(zuò)好。


1、切忌安全無小事原則,任何一(yī)個安全小事,都有可(kě)能造成不可(kě)挽回的(de)局面;

2、運維工程師應該主動配合安全部門整改、配合完成各種策略、雖然有的(de)時候感覺這種策略會造成一(yī)些不必要的(de)時間,如(rú)果站在安全的(de)角度,其實是很有必要的(de)。


效率和(hé)成本意識


1、有效率優化意識,瑣事不可(kě)避免,但要盡可(kě)能減少瑣事,對重複性、手工性的(de)操作能夠工具化的(de),必須開發一(yī)些自(zì)動化工具;

2、由手動操作到腳本工具、到平台工具、到産品,這樣即能提高(gāo)效率、降低(dī)成本;

3、節約資源也是減少成本的(de)重要體現,雖然決定不了産品營收多少,但可(kě)以通過資源整合、彈性伸縮、服務混合部署、架構優化、無流量服務主動下線等手段将有限資源最大化利用,節省基礎設施資源成本,同時,通過效率的(de)提升也可(kě)以優化人力資源成本。


13905190502 南京市玄武區洪武北路188号長(cháng)發數碼大廈11樓E座
友情鏈接
百度 網絡安全和(hé)信息化委員會 FreeBuf網絡安全行業門戶

分享:
Copyright © 2020-2022 南京明科網絡科技有限公司 版權所有  
技術支持:飛(fēi)酷網絡