現如(rú)今,随着日益增速的(de)業務環境,運維在企業中的(de)角色越來越重要。如(rú)何在錯綜複雜的(de)IT系統架構中降低(dī)現場故障處理(lǐ)時間、提高(gāo)運維效率,是每個IT運維工程師都必不可(kě)少的(de)技能。
為(wèi)解決上述運維人員困境,2021年(nián)12月30日,雲智慧AIOps社區邀請雲智慧開發運維工程師Larry Zhang在線分享了開源運維管理(lǐ)平台OMP的(de)功能特性、使用場景等關鍵內(nèi)容,更是通過實踐操作詳細地(dì)介紹了如(rú)何通過OMP實現運維智能化。
OMP是雲智慧自(zì)主設計研發,集輕量級、聚合型、智能運維為(wèi)一(yī)體的(de)綜合運維管理(lǐ)平台,具備納管、部署、監控、巡檢、自(zì)愈、備份、恢複等功能。通過減輕交付難度,提升運維自(zì)動化、智能化,進而提升運維整體效率,保障業務運行的(de)連續性和(hé)安全性。
OMP支持頁面添加和(hé)批量添加兩種方式納管主機。添加過程中OMP會驗證主機SSH連接信息,驗證通過後即可(kě)創建主機。此外,主機創建完成後OMP會自(zì)動安裝 Agent端,安裝完成後也會自(zì)動對主機進行監控。點擊監控按鈕可(kě)以查看主機監控面闆,通過主機詳情頁面也可(kě)以查看主機詳細信息及曆史記錄。
OMP支持頁面上傳和(hé)後端掃描兩種方式發布服務包。使用者可(kě)以根據實際情況選擇适合的(de)方式發布服務包,OMP會對服務包進行驗證,驗證通過後,即可(kě)成功發布。服務包發布成功後,會在應用商店中展示所發布的(de)服務列表,使用者可(kě)以點擊查看進入到服務詳情頁面,查看服務詳細信息。
在應用商店點擊安裝,選擇服務版本後,進入安裝流程。涉及到依賴信息的(de)服務,OMP會自(zì)動将依賴服務顯示出來,保障服務安裝完後的(de)可(kě)用性。此外,使用者可(kě)根據選擇的(de)服務數量,進行服務分布和(hé)服務配置修改。安裝過程中,OMP會優先安裝依賴服務,點擊“查看詳細安裝信息”後 可(kě)查看安裝腳本輸出內(nèi)容。安裝完成後OMP會自(zì)動對服務監控,在服務列表中可(kě)以對服務進行停止、啓動、重啓、卸載等操作。
異常清單中會展示正在處于告警狀态指标數據,幫助使用者了解當前異常主機、服務。通過點擊監控按鈕,可(kě)以查看該服務的(de)監控面闆。告警記錄可(kě)以幫助使用者查看曆史告警信息,通過點擊監控按鈕,可(kě)以查看該服務的(de)監控面闆。此外,監控設置中使用者可(kě)以根據實際情況,配置監控組件的(de)地(dì)址信息,也可(kě)以開啓郵件推送,選擇告警信息接受郵件。
OMP中巡檢共分為(wèi)3個維度,分别是 深度分析、主機巡檢、組件巡檢,在巡檢記錄中選擇所需的(de)巡檢內(nèi)容即可(kě)。巡檢執行完成後,可(kě)以在線查看,或者導出巡檢報告,也可(kě)以通過郵件推送報告到指定郵箱。
使用者可(kě)以在指标中心統一(yī)設置默認的(de)告警指标,告警指标會對巡檢、監控同時生效,當主機或服務資源使用超過阈值時,觸發告警。
當納管主機或服務需要升級或維護時,可(kě)以開啓維護模式。維護模式下,OMP會抑制所有告警通知。通過郵件設置,可(kě)以設置發件郵箱信息。
巡檢的(de)目的(de)主要是對主機和(hé)服務時間做(zuò)狀态快照,以此可(kě)以查看該時間段主機和(hé)服務的(de)狀态。
巡檢的(de)顆粒度更細一(yī)些,主要是對內(nèi)核等信息進行監控;而監控隻會對主機CPU等級别信息的(de)一(yī)個監控。
目前是通過prometheus操作實現。
目前OMP采集的(de)是服務日志,可(kě)在安裝包中指明服務日志路徑進行日志采集。
是的(de),目前OMP所有的(de)組件均已開源。歡迎大家登陸Github或Gitee點贊支持~
OMP GitHub 地(dì)址: https://github.com/CloudWise-OpenSource/OMP
OMP 國內(nèi)鏡像地(dì)址: https://gitee.com/CloudWise/OMP