一(yī)篇文(wén)章(zhāng)讓你(nǐ)看(kàn)π★™明(míng)白(bái)運維所有(yǒu)發展方向!

2017-07-20 10:54
導讀(dú) 互聯網運維工(gōng)作(zuò),以服務為(wèi)中心,以穩定、安♠₩λ全、高(gāo)效為(wèi)三個(gè)基本點,确↓™$€保公司的(de)互聯網業(yè)務能(néng)夠7×24小∞♠$(xiǎo)時(shí)為(wèi)用(yòng)戶提供高(gāo)質£✘¥量的(de)服務。

 

運維人(rén)員(yuán)對(duì)公司互聯網®★©↑業(yè)務所依賴的(de)基礎設施、基礎服務、線"ε'上(shàng)業(yè)務進行(xíng)穩定性加強,進行•δ>(xíng)日(rì)常巡檢發現(xiàn)服務可(kě)能(néng)存在¥≠的(de)隐患,對(duì)整體(tǐ)架構×α'進行(xíng)優化(huà)以屏蔽常見(jiàn)的(de§↔¥)運行(xíng)故障,多(duō)數(shù)據中接入提高(gāo)業(¶‍yè)務的(de)容災能(néng)力,通(tōng)過監控、日↕±π(rì)志(zhì)分(fēn)析等技(Ω‍>₽jì)術(shù)手段,及時(shí)發™&₽現(xiàn)和(hé)響應服務故障,減少(shǎo)服♦ "務中斷的(de)時(shí)間(jiān),使公司的(de)互聯網業(y₽σ∞è)務符合預期的(de)可(kě)用(yònεβg)性要(yào)求,持續穩定地(dì)為(wèi)用(yòng)戶提供務£"∏ 。 

 

運維工(gōng)作(zuò)分(fēn)類

運維的(de)工(gōng)作(zuò)方向比較多(‍ ₽duō),随著(zhe)業(yè)務規模的(de)♠£不(bù)斷發展,越成熟的(de)互聯網公司☆ ,運維崗位會(huì)劃分(fēn)得(de)越 λ'‍細。當前很(hěn)多(duō)大(dà)型的(de)互聯網公司✔β,在初創時(shí)期隻有(yǒu)系統運¶∏↕維,随著(zhe) 模、服務質量的(de) 要(yào)求,ε"★也(yě)逐漸進行(xíng)了(le)工(g∏ε←ōng)作(zuò)細分(fēn)。一(λ→yī)般情況下(xià)運維團隊的(de)工(gōng)作(zuò)分≈λ(fēn)類(見(jiàn)圖1-1)和(hé)職責如(rú)下₩φλ(xià)。

圖1-1 運維團隊的(de)工(gōng) ÷★ 作(zuò)分(fēn)類

 

系統運維

系統運維負責IDC、網絡、CDN和(hé)基礎服務的(σ£ de)建設(LVS、NTP、DNS);負∏₹責資産管理(lǐ),服務器(qì)選型、交付和(hé)維"§修。詳細的(de)工(gōng)作(zuò)職責如(rú)下(xià):®α∏

 

IDC數(shù)據中心建設

收集業(yè)務需求,預估未來(lái)數(shù)據中心的(de)發展規模,αδ從(cóng)骨幹網的(de)分(fēn)布,數(shù)據中心♦& ↔建築,以及Internet接入、網絡攻擊防禦能(néng)力、δ±± 擴容能(néng)力、空(kōng)間(jiān)預留、外(wài)接專線能‌λ∏(néng)力、現(xiàn)場(chǎ₩←ng)服務支撐能(néng)力等方面評估選型©∑¥ 數(shù)據中心。負責數(shù)據中心的(de)建設、現(xγβ'↕iàn)場(chǎng)維護工(gōng) <>₹作(zuò)。

 

網絡建設

設計(jì)及規劃生(shēng)産網絡架構,這(z₹₽¶>hè)裡(lǐ)面包括:數(shù)據中心網絡架構☆♥ $、傳輸網架構、CDN網絡架構等,以及網絡調優'✘×等日(rì)常運維工(gōng)作(zuò)。

 

LVS負載均衡和(hé)SNAT建設

LVS是(shì)整個(gè)站(zhàα¥n)點架構中的(de)流量入口,根據網絡規模和(hé)業(y✘©δ∞è)務需求,構建負載均衡集群;完成網絡與業(yè)務服務器(qì≤¥)的(de)銜接,提供高(gāo)性能(néng)、高(gāo)可(kβ¶ě)用(yòng)的(de)負載調度能(nén€✘g)力,以及統一(yī)的(de)網絡層防攻擊
能(néng)力;SNAT集中提供數(shù)據中心的(de)公網訪問£☆​™(wèn)服務,通(tōng)過集群化(hu∞ ★à)部署,保證出網服務的(de)高(gāo)性能<>(néng)與高(gāo)可(kě)用(yòng)。

 

CDN規劃和(hé)建設

CDN工(gōng)作(zuò)劃分(fēn)₹€為(wèi)第三方和(hé)自(zì)建兩部分(fēn)。建立第三方CDN的λα✘•(de)選型和(hé)調度控制(zhì);根據業($→¶yè)務發展趨勢,規劃CDN新節點建設布局;完善≤•♣↑CDN業(yè)務及監控,保障CDN系統穩定、高(gāo)效運行(xíng);♠'©分(fēn)析業(yè)務加速頻(pín)道(dào)的(de)≤¶文(wén)件(jiàn)特性和(hé)數(shù)量,制(zhì☆&)定最優的(de)加速策略和(hé)資源匹配±₽★;負責用(yòng)戶劫持等CDN日(rì)常故障排查工(gō∞ ng)作(zuò)。

 

服務器(qì)選型、交付和(hé)維護

負責服務器(qì)的(de)測試選型,包含服務器(qì)整機(jī)、部件("'jiàn)的(de)基礎性測試和(hé)業↕$≤(yè)務測試,降低(dī)整機(jī)功率,提×​φ升機(jī)架部署密度等。結合對(duì)公司 β≈業(yè)務的(de)了(le)解,推廣$≠≈ε新硬件(jiàn)、新方案減少(shǎo)業(yè)務的(d→φ'e)服務器(qì)投入規模。負責服務器(qì)硬件(jiàn)故障的→•¶€(de)診斷定位,服務器(qì)硬件(ji®¶←àn)監控、健康檢查工(gōng)具的(de)開(kāi)發和(✘"♦hé)維護。

 

OS、內(nèi)核選型和(hé)OS相(xiàng)£≤×關維護工(gōng)作(zuò)

負責整體(tǐ)平台的(de)OS選型、定制(λ∞‌zhì)和(hé)內(nèi)核優化(huà),以及Patc'≠±≥h的(de)更新和(hé)內(nèi)部版本發布;建立基礎的(de)YUM包©↔✔∞管理(lǐ)和(hé)分(fēn)發中心,提供常用(yòng)包版本庫€₩™;跟進日(rì)常各類OS相(xiàng)關故障;針對(duì)不(bù±λ₹)同的(de)業(yè)務類型,提供定向的(de)優化(hu¥βà)支持。

 

資産管理(lǐ)

記錄和(hé)管理(lǐ)運維相(xiàng)關的(de)基礎物(wù)理(l≥≥™ǐ)信息,包括數(shù)據中心、網絡、機(jī)櫃、服務器(≤™qì)、ACL、IP等各種資源信息,制(z¶•"hì)定有(yǒu)效的(de)流程,确保信息的(de♠←★)準确性;開(kāi)放(fàng)API接"λ ™口,為(wèi)自(zì)動化(huà)運維提供數(shù)₹φ據支持。

 

基礎服務建設

業(yè)務對(duì)DNS、NTP、SYSLOG等基礎服務的(©™€de)依賴非常高(gāo),需要(yào>'✔)設計(jì)高(gāo)可(kě)用(yòng)架構避免單點,提供穩定的(d ​→$e)基礎服務。

 

應用(yòng)運維

應用(yòng)運維負責線上(shàng)服™₩務的(de)變更、服務狀态監控、服務容災和(hé)數(shù)據備份等工(g€₽→±ōng)作(zuò),對(duì)服務進行(xíng)例行(xíng)排查&¥&≈、故障應急處理(lǐ)等工(gōng)作(zuò)。詳細的(de)‍•♠♥工(gōng)作(zuò)職責如(rú)下(xià)所述。

 

設計(jì)評審

在産品研發階段,參與産品設計(jì)評審,♣Ω從(cóng)運維的(de)角度提出評審意見(jiàn),使服務滿足運維準入 ®α←的(de)高(gāo)可(kě)用(yòn®¶£g)要(yào)求。

 

服務管理(lǐ)

負責制(zhì)定線上(shàng)業(yè)務升級變更及回滾方 ♦案,并進行(xíng)變更實施。掌握所負責的(de)服務δ♣及服務間(jiān)關聯關系、服務依賴的(de)各種資∞≠§±源。能(néng)夠發現(xiàn)服務上(✔γ₹shàng)的(de)缺陷,及時(shí)通(tōng)報(→↑∑‌bào)并推進解決。制(zhì)定服務穩定性指标及準入标準,同時(s♦∞π☆hí)不(bù)斷完善和(hé)優化(huà)♣​σ程序和(hé)系統的(de)功能(néng)、效率,提高(gāo)運行(→βxíng)質量。完善監控內(nèi)容,提高÷₹∑ (gāo)報(bào)警準确度。在線上(shàng)服務出₽δ‌現(xiàn)故障時(shí),第一(yī)時(shí)間(ji>$♥ān)響應,對(duì)已知(zhī)線上(shàng)故障能↕↔‌(néng)按流程進行(xíng)通(tōng)報(bào)并按預案執∞♠₹行(xíng),未知(zhī)故障組織相(x•‌iàng)關人(rén)員(yuán)聯合排障。

 

資源管理(lǐ)

對(duì)各服務的(de)服務器(qì)資産進行(xíng)管理δ¶ (lǐ),梳理(lǐ)服務器(qì)資源狀況、數(shù)據中心分(fēn)布‌‌情況、網絡專線及帶寬情況,能(néng)夠合理(lǐ)使用(y≤‍≥‌òng)服務器(qì)資源,根據不(bù)同服務的(de)需求,  分(fēn)配不(bù)同配置的(de)服務器(qì)±€∞★,确保服務器(qì)資源的(de)充分(fēn)利用(yò'​ng)。

 

例行(xíng)檢查

制(zhì)定服務例行(xíng)排查點,并不(bù)斷完♥←∞善。根據制(zhì)定的(de)服務排查點,對(duì)服務進行(xín↑←₹g)定期檢查。對(duì)排查過程中發現(xiàn)的(de)問(wèn)題,←>及時(shí)進行(xíng)追查,排除可(kě)能(néng)存Ω≥✘"在的(de)隐患。

 

預案管理(lǐ)

确定服務所需的(de)各項監控、系統指标的(de  )阈值或臨界點,以及出現(xiàn)該情況後的(de)處理(lǐ)預案&<σ×。建立和(hé)更新服務預案文(wén)檔,并根據日(rì)常ε∞故障情況不(bù)斷補充完善,提高(gāo)預案完備性。能(nén÷✘g)夠制(zhì)定和(hé)評審各類預案,周期性進行(xín∑±™♣g)預案演練,确保預案的(de)可(kě)執行(xíng)性。

 

數(shù)據備份

制(zhì)定數(shù)據備份策略,按規範進行∏'♣'(xíng)數(shù)據備份工(gōng)作(zu≠¥∑∞ò)。保證數(shù)據備份的(de)可(kě)用(yòng)性和(h飕δ)完整性,定期開(kāi)展數(shù)✘‍據恢複性測試。

 

數(shù)據庫運維

數(shù)據庫運維負責數(shù)據存儲方案↑←π♦設計(jì)、數(shù)據庫表設計(jì)、索引♦×ε設計(jì)和(hé)SQL優化(huà),對(d₹←uì)數(shù)據庫進行(xíng)變更、監控、備份、高(gāo)可(kě)π δ用(yòng)設計(jì)等工(gōng)作(zuò)。詳細的(de)工(δ• gōng)作(zuò)職責如(rú)下(xià)所★Ω★述。

 

設計(jì)評審

在産品研發初始階段,參與設計(jì)方案評審 ±γ♣,從(cóng)DBA的(de)角度提出數(shù)據存儲方•∑案、庫表設計(jì)方案、SQL開(kāi)發标準、索'☆₹×引設計(jì)方案等,使服務滿足數(shù≠♣↕)據庫使用(yòng)的(de)高(gāo)可(kě)用(y♠÷₩∞òng)、高(gāo)性能(néng)要(yào)求。

 

容量規劃

掌握所負責服務的(de)數(shù)據庫的β&®(de)容量上(shàng)限,清楚地(dì)了(le)解≤αΩ當前瓶頸點,當服務還(hái)未到(dào)達容量上(shàng)限βλ₹¥時(shí),及時(shí)進行(xíng)&×π優化(huà)、分(fēn)拆或者擴容。

 

數(shù)據備份與災備

制(zhì)定數(shù)據備份與災備策略,定期完成數(shù)®$♣據恢複性測試,保證數(shù)據備份的(de)可(k✘γ↔ě)用(yòng)性和(hé)完整性。

 

數(shù)據庫監控

完善數(shù)據庫存活和(hé)性能(n☆®≥δéng)監控,及時(shí)了(le)解數(shù)據庫運行(x&σíng)狀态及故障。

 

數(shù)據庫安全

建設數(shù)據庫賬号體(tǐ)系,嚴格控制(z←★hì)賬号權限與開(kāi)放(fàng)範圍,降低(dī)誤操作(π↑₩zuò)和(hé)數(shù)據洩露的(de)風(fēng>∑£)險;加強離(lí)線備份數(shù)據的(de)管理(l♠>‌₽ǐ),降低(dī)數(shù)據洩露的(de)風≤'(fēng)險。

 

數(shù)據庫高(gāo)可(kě)用(yòng)和(hé)性能(σ∏λ'néng)優化(huà)

對(duì)數(shù)據庫單點風(fēng)險和(hé)故障設計(jì•‍)相(xiàng)應的(de)切換方案,降低(dī)故障對(duì)數(✔•÷↔shù)據庫服務的(de)影(yǐng)響;不(bù'♥₹)斷對(duì)數(shù)據庫整體(tǐ)性'εγ能(néng)進行(xíng)優化(huà) α≤∑,包括新存儲方案引進、硬件(jiàn)優化(huà)、文(φππβwén)件(jiàn)系統優化(huà)、數(shγ$ù)據庫優化(huà)、SQL優化(huà)等,在©®±保障成本不(bù)增加或者少(shǎo)量增加的₩ ≤​(de)情況下(xià),數(shù)據庫可(kěπ£)以支撐更多(duō)的(de)業(yè)務請(qǐng)求€←。

 

自(zì)動化(huà)系統建設

設計(jì)開(kāi)發數(shù)據庫自(zì)動化(huà)運維≠♥系統,包括數(shù)據庫部署、自(zì)動擴容、分Ω←‍λ(fēn)庫分(fēn)表、權限管理(lǐ)、備✘♠份恢複、SQL審核和(hé)上(shàng)線、故障切換等功能(néng)。

 

運維研發

運維研發負責通(tōng)用(yòng)的(de)運維平台設計(jì)和(hλ≠é)研發工(gōng)作(zuò),如(¶∑rú):資産管理(lǐ)、監控系統、運維‌α♠平台、數(shù)據權限管理(lǐ)系統等。提供各種API供運維或×λδφ研發人(rén)員(yuán)使用(yòng),封裝更高(gāo✘©≥)層的(de)自(zì)動化(huà)運維系統。詳細的(de)工÷"(gōng)作(zuò)職責如(rú)下(xià)±≥¥<所述。

 

運維平台

記錄和(hé)管理(lǐ)服務及其關聯關系,協助運維人(rén)員(yuán)♣$₩‌自(zì)動化(huà)、流程化(huà)地(d★¥™ì)完成日(rì)常運維操作(zuò),包括機(jī)器(®•§qì)管理(lǐ)、重啓、改名、初始化(&& ✘huà)、域名管理(lǐ)、流量切換和(hé)故障預案實施等。

 

監控系統

負責監控系統的(de)設計(jì)、開(kāi)發工♦ε(gōng)作(zuò),完成公司服務器(qì)和(h♥♠₹λé)各種網絡設備的(de)資源指标、線上$"←Ω(shàng)業(yè)務運行(xíng)指标的(de)收集、告警、存儲、分(✘¥←↓fēn)析、展示和(hé)數(shù)據挖掘等工(gōng)作(zuò₹$),持續提高(gāo)告警的(de)及時(shσπ®♥í)性、準确性和(hé)智能(néng)性,©¶促進公司服務器(qì)資源的(de)合理(lǐ)∞±§≈化(huà)調配。

 

自(zì)動化(huà)部署系統

參與部署自(zì)動化(huà)系統的(de)開(π₽¶‍kāi)發,負責自(zì)動化(huà)部署系≈≈↓£統所需要(yào)的(de)基礎數(shù)據和(hé)信息,負責權>δ‍限管理(lǐ)、API開(kāi)發、Web↔>δ端開(kāi)發。結合雲計(jì)算(su±→ §àn),研發和(hé)提供PaaS相(xiàng)關高(g®±āo)可(kě)用(yòng)平台,進一(yī)步提高(©∏gāo)服務的(de)部署速度和(hé)用(yòng)↔≥戶體(tǐ)驗,提升資源利用(yòng)率。

 

運維安全

運維安全負責網絡、系統和(hé)業(yè)務等方面的(de)安全加固π≤₹工(gōng)作(zuò),進行(xíng)常規的(de)安Ω₹↓↔全掃描、滲透測試,進行(xíng)安全工(g↑φ♥ōng)具和(hé)系統研發以及安全事(shì)件(jiàn>×)應急處理(lǐ)。詳細的(de)工(gōng)作 ★→(zuò)職責如(rú)下(xià)所述。

 

安全制(zhì)度建立

根據公司內(nèi)部的(de)具體(t>δ♥ǐ)流程,制(zhì)定切實可(kě)行(x≤↑©íng),且行(xíng)之有(yǒu)效的(de)安全制(zhì)度。ε€β

 

安全培訓

定期向員(yuán)工(gōng)提供具有(yǒu)針對(duì)性的(de)♠≤‌安全培訓和(hé)考核,在全公司內(nèi)✔→€建立安全負責人(rén)制(zhì)度。

 

風(fēng)險評估

通(tōng)過黑(hēi)白(bái)盒測試和(hé)檢查機(jī)制(z<‌hì),定期産生(shēng)對(duì)物(wù)理(lǐ)網絡、服務←★§₽器(qì)、業(yè)務應用(yòng)、用(yò¥×ng)戶數(shù)據等方面的(de)總體(tǐ)↔♣↔風(fēng)險評估結果。

 

安全建設

根據風(fēng)險評估結果,加固最薄弱的(de)環節,包括設計(jìΩβ¥)安全防線、部署安全設備、及時(shí)更新補丁、防禦病毒、源¥ε>‌代碼自(zì)動掃描和(hé)業(yè)務産品安全咨詢等。為(wèiβ→)了(le)降低(dī)可(kě)能(néng)洩露數(sσ•✘hù)據的(de)價值,通(tōng)過加密、匿名化(huà)、混淆數(s↔ hù)據,乃至定期删除等技(jì)術(shù)手段和(hé)流程來(lái) ÷♣₹達到(dào)目的(de)。

 

安全合規

為(wèi)了(le)滿足例如(rú)支付牌照(z≈±hào)等合規性要(yào)求,安全團隊承擔<&λ著(zhe)安全合規的(de)對(duì)外(wài)接口人(r<←én)工(gōng)作(zuò)。

 

應急響應

建立安全報(bào)警系統,通(tōng)過安Ω  全中心收集第三方發現(xiàn)的(de)安全問(wèn)題,組織各部Ω↔ε門(mén)對(duì)已經發現(xiàn)的(de)安全問(wè±₹₩n)題進行(xíng)修複、影(yǐng)響面評估、事♥☆₩(shì)後安全原因追查。

 

運維工(gōng)作(zuò)發展過程

早期的(de)運維團隊在人(rén)員(yuán)✔"較少(shǎo)的(de)情況下(xià),主要(yào)•¥±是(shì)進行(xíng)數(shù)據中心建設、基礎網絡建設ε☆σ≥、服務器(qì)采購(gòu)和(hé)服務器(qì)安裝交β↑ε付工(gōng)作(zuò)。幾乎很(hěn)少(s↑∏₩ hǎo)涉及線上(shàng)服務的(de)變更、監控、管理(lǐ)等工↑€§(gōng)作(zuò)。這(zhè)個(gè)時(shí)候的(©←de)運維團隊更多(duō)的(de)屬于α®₩基礎建設的(de)角色,提供一(yī)個(gè)簡單、可( γγkě)用(yòng)的(de)網絡環境和(hé)系統環境即可(k∑♦×ě)。

 

随著(zhe)業(yè)務産品的(de)逐漸成熟,對(du<£ì)于服務質量方面就(jiù)有(yǒu)了(le)更高(g↓ āo)的(de)要(yào)求。這(zhè)個(gè)時(shíβ®≈)候的(de)運維團隊還(hái)會(hσ ±uì)承擔一(yī)些(xiē)服務器(qì)← ‍☆監控的(de)工(gōng)作(zuò),同時(shí)會(huìΩλε​)負責LVS、Nginx等與業(yè)務邏輯無關的(de)4★÷/7層運維工(gōng)作(zuò)。這(zh' ∏'è)個(gè)時(shí)候服務變更更多εφβ™(duō)的(de)是(shì)逐台的(de)手♥↓¥∞工(gōng)操作(zuò),或者有(yǒu)一(© ♦yī)些(xiē)簡單批量腳本的(de)出→×✔≠現(xiàn)。監控的(de)焦點更多(duō)的(d≥ e)在服務器(qì)狀态和(hé)資源使εδ♦Ω用(yòng)情況上(shàng),對(dβ÷× uì)服務應用(yòng)狀态的(de)監控幾乎很(hěn)¶σ™少(shǎo),監控更多(duō)的(de)使用(yòng)各種開(kāi)✘‌₹♠源系統如(rú)Nagios、Cacti等。

 

由于業(yè)務規模和(hé)複雜(zá)度的(de)持續增↑•₩₽加,運維團隊會(huì)逐漸劃分(fēn)為(wèi)應用(yòng☆ )運維和(hé)系統運維兩大(dà)塊。應用(yòng)運維開(kāi)✘£始接手線上(shàng)業(yè)務,逐步開(kāi)展服務監控梳Ω£理(lǐ)、數(shù)據備份以及服務變更的(de)工(gōng)作(✘§♣zuò)。随著(zhe)對(duì)服務的(de)¥±深入,應用(yòng)運維工(gōng)程師(✘↔☆shī)有(yǒu)能(néng)力開(kāi)始對(duì)服務進行(xí±★×∏ng)一(yī)些(xiē)簡單的(de)優化(huγ<à)。同時(shí),為(wèi)了(le)應對(duì)每天大€↑ (dà)量的(de)服務變更,我們也(yě)開(kāi)始編寫↕×各類運維工(gōng)具,針對(duì)€'某些(xiē)特定的(de)服務能(néng)夠很(h¥§>♥ěn)方便的(de)批量變更。随著(zhe)業(yè)務規模>≤★的(de)增大(dà),基礎設施由于容量規劃不(b☆λù)足或抵禦風(fēng)險能(néng)力較弱導緻的(de)故障也(<αyě)越來(lái)越多(duō),迫使運維人(rén)員(yuán)開≥≠♣₽(kāi)始将更多(duō)的(de)精力投✔♣±↓入到(dào)多(duō)數(shù)據中心容災、預案管理(lǐ)的α>★(de)方向上(shàng)。

 

業(yè)務規模達到(dào)一(yī)定程度後, ÷開(kāi)源的(de)監控系統在性能(néng)和(hé)功₽€™→能(néng)方面,已經無法滿足業(yè)務需求;大(dà•♦≠≤)量的(de)服務變更、複雜(zá)的(de)服≈₹γ☆務關系,以前靠人(rén)工(gōng)記∏←✔¶錄、工(gōng)具變更的(de)方式不(bù)管在效率還(hái)✘✘↓是(shì)準确性方面也(yě)都(dōu)無法滿足業(yè)務需求;在→→₩♥安全方面也(yě)出現(xiàn)了(le)各種大(dà)大'♦​(dà)小(xiǎo)小(xiǎo)的(de)事(sh​↔ì)件(jiàn),迫使我們投入更多(duō)的(≈ de)精力在安全防禦上(shàng)。逐漸的(de),α£♦≤運維團隊形成之前提到(dào)的(de)5個(gè)大(dà)的(de)工'​→β(gōng)作(zuò)分(fēn)類,每個(gè)分(fēn)類都​€ (dōu)需要(yào)有(yǒu)專精的(de)人(rén)才。這(zhλ✘♣φè)個(gè)時(shí)候系統運維更專注于基礎設施的(de)建設σ$∞€和(hé)運維,提供穩定、高(gāo)效的(de↓✘↕≈)網絡環境,交付服務器(qì)等資源給應用(yòng)運維工(gōng)程師₹→(shī)。應用(yòng)運維更專注于服務♦÷‍運行(xíng)狀态和(hé)效率。數(shù)據庫運維屬≤λ于應用(yòng)運維工(gōng)作(zuò)的(de)細化(huà₽₩¶α),更專注于數(shù)據庫領域的(de)自(zì)✔"₽動化(huà)、性能(néng)優化(huà)€↑和(hé)安全防禦。運維研發和(hé)運維安全提供各類平台、工(gōng)♣σ>具,進一(yī)步提升運維工(gōng)程 ✔師(shī)的(de)工(gōng)作(zuò)​✘≈∑效率,使業(yè)務服務運行(xíng)得(d‌≥ε₩e)更加穩定、高(gāo)效和(hé)安全。

 

我們将運維發展過程劃分(fēn)為(wèi)4個(gè)階₹"段,如(rú)圖1-2所示。

圖1-2 運維發展過程

 

手工(gōng)管理(lǐ)階段

業(yè)務流量不(bù)大(dà),服務器(qì)數(shù)量相(xi£←àng)對(duì)較少(shǎo),系統複雜(zá)度不(bù)高(gāo±≠↕)。對(duì)于日(rì)常的(de)業(yè)務管理≥•¥±(lǐ)操作(zuò),大(dà)家(jiā)更多(du$✔γ✔ō)的(de)是(shì)逐台登錄服務器(qì)進行(xíng)手 'Ω工(gōng)操作(zuò),屬于各自(zì)為(wèi)↓<‍戰,每個(gè)人(rén)都(dōu)有(ε★'≤yǒu)自(zì)己的(de)操作(zuò)方式,缺少(shǎo)必要(y↕ σào)的(de)操作(zuò)标準、流程機(jī)制(zhì),比如(r↕​€ú)業(yè)務目錄環境都(dōu)是(sh♣™γ ì)各式各樣的(de)。

 

工(gōng)具批量操作(zuò)階段

随著(zhe)服務器(qì)規模、系統複雜(zá)度的(de)增≥"加,全人(rén)工(gōng)的(deσ↓¶←)操作(zuò)方式已經不(bù)能(néng)滿足業(yè)務×£★的(de)快(kuài)速發展需要(yà•≠>φo)。因此,運維人(rén)員(yuán)逐漸開π≥$(kāi)始使用(yòng)批量化(huà)的(de)操作(zuò)工(g★≥☆↔ōng)具,針對(duì)不(bù)同操作(z×₩£∑uò)類型出現(xiàn)了(le)不(bù)同的(de)腳本程♦ •序。但(dàn)各團隊都(dōu)有(yǒ☆α₹u)自(zì)己的(de)工(gōng)具"<,每次操作(zuò)需求發生(shēng)變化(huà)時(shí)₹₽∑都(dōu)需要(yào)調整工(gōng)具。這(zhè)主要(yβ★™ào)是(shì)因為(wèi)對(duì)于環境、操作(zuò)的↕♠ (de)規範不(bù)夠,導緻可(kě)程序化(huà)處理(lǐ)能≤↕®≥(néng)力較弱。此時(shí),雖然↑>效率提升了(le)一(yī)部分(fēn),但(dàn)很→→(hěn)快(kuài)又(yòu)遇到(dào)了(le)σ÷✘瓶頸。操作(zuò)的(de)質量并沒有(yǒu)太多(duō)的(de)提‌<σ升,甚至可(kě)能(néng)因為(wèi)批量執行(xíng)☆≥而導緻更大(dà)規模的(de)問(wèn)題出現(xiàn)。我們開(k≥₩↕āi)始建立大(dà)量的(de)流程規範,比如(rú)複查機(jī÷∞₩♣)制(zhì),先上(shàng)線一(yī)台服務器(q≈γ₹©ì)觀察10分(fēn)鐘(zhōng)後再繼續後面的(de®₩≈☆)操作(zuò),一(yī)次升級完成後至少(&∏÷★shǎo)要(yào)觀察20分(fēn)鐘(zhōng)等。這('→zhè)些(xiē)主要(yào)還(hái)是(shì)靠 ≤人(rén)來(lái)監督和(hé)執行★↕>(xíng),但(dàn)在實際過程中執行≤₹ (xíng)往往不(bù)到(dào)位,反↓β®而降低(dī)了(le)工(gōng)作(z™£≤£uò)效率。

 

平台管理(lǐ)階段

在這(zhè)個(gè)階段,對(duì)于運維效率和(hΩ£✘é)誤操作(zuò)率有(yǒu)了(le)更高(gāo)的(de)要(y$≥ào)求,我們決定開(kāi)始建設運維平台,通(tōng)過平台承載标準"&、流程,進而解放(fàng)人(rén)力和(hé)提高±≠↔(gāo)質量。這(zhè)個(gè)時(shí)候對(×★​♥duì)服務的(de)變更動作(zuò)進行(xíng)了(le)抽象,形成λ₹σ↔了(le)操作(zuò)方法、服務目錄環境、服πλ 務運行(xíng)方式等統一(yī)的(de)标準,如(r'↑ú)程序的(de)啓停接口必須包括啓動、停止、重載等。通(σ<tōng)過平台來(lái)約束操作(zuò)流程,如(rú)上(sh"™₩δàng)面提到(dào)的(de)上(shàng)線一(yī)台服務器(qì↕ )觀察10分(fēn)鐘(zhōng)。在平台中強制(zhì)設定暫停檢查∑$✔±點,在第一(yī)台服務器(qì)操作(zuò)完成後,需要(yào)運維人σ≠(rén)員(yuán)填寫相(xiàng)應的(de)檢查項,然後才可(∞   kě)以繼續執行(xíng)後續的(de)部署動作(zuò)。

 

系統自(zì)調度階段

更大(dà)規模的(de)服務數(shùδ→✘÷)量、更複雜(zá)的(de)服務關聯關系、各個(σ₹→✘gè)運維平台的(de)林(lín)立,原有(yǒu)的(de)‌☆®将批量操作(zuò)轉化(huà)成平台操作(zuò)的(de)¥↓方式已經不(bù)再适合,需要(yào)對(duì)服務變更進行( ¥¶xíng)更高(gāo)一(yī)層的(dσ✘e)抽象。将每一(yī)台服務器(qì)抽象成一β↓↓‍(yī)個(gè)容器(qì),由調度系統根↕φ據資源使用(yòng)情況,将服務調度、部署到(dào)合适的®α (de)服務器(qì)上(shàng),自(zì)動化(huà  )完成與周邊各個(gè)運維系統的(de)聯動,比如∞γ(rú)監控系統、日(rì)志(zhì)系統、備份系統等。通(tōng)過¥≤∞​自(zì)調度系統,根據服務運行(xíng)情況動态伸縮容量,能(n§"☆éng)夠自(zì)動化(huà)處理(lǐ)¶♥π<常見(jiàn)的(de)服務故障。運維人(rén)員(yuán)的(♣$de)工(gōng)作(zuò)也(yě)會(huì)前置到(dào)∏α産品設計(jì)階段,協助研發人(rén☆φ✘≈)員(yuán)改造服務使其可(kě)以接入到(dào)自(zì)調度™✔★系統中。

在整個(gè)運維的(de)發展過程中,希望所有(yǒu)的(de)工π♣×(gōng)作(zuò)都(dōu)自(zì)動化(hu•≤×à)起來(lái),減少(shǎo)人(rén)的(de× )重複工(gōng)作(zuò),降低(dī)知(zhī)識←₽傳遞的(de)成本,使我們的(de)運維交εσ∞付更高(gāo)效、更安全,使産品運行(xíng)更穩定。對∞ ∞¶(duì)于故障的(de)處理(lǐ),也(yě)希望由事(‌'≈shì)後處理(lǐ)變成提前發現(xiàn),由 ♦人(rén)工(gōng)處理(lǐ)變成系統自(zì)動容災。

原文(wén)來(lái)自(zì): &₩•∞nbsp;http://www.yunweipai.₩↓♦com/archives/21491.html