互聯網運維工(gōng)作(zuò),以服¥←±£務為(wèi)中心,以穩定、安全、高(gāo)效為(wèi)三個(gè)₩☆≥♣基本點,确保公司的(de)互聯網業(yè)務能(néng× ♥)夠 7×24 小(xiǎo)時(shí)為(wèi)用(yα₹òng)戶提供高(gāo)質量的(de)服務。
運維人(rén)員(yuán)對(duì)公司互聯網業γπ¥<(yè)務所依賴的(de)基礎設施、基礎服務、線©✔↑上(shàng)業(yè)務進行(xíng)穩定性加強,進行(xíng)日≠φ☆(rì)常巡檢發現(xiàn)服務可(kě)能(néng✘←↓)存在的(de)隐患,對(duì)整體(tǐ)架構進行(xíng)優€ &化(huà)以屏蔽常見(jiàn)的(de)↑₹≤✘運行(xíng)故障,多(duō)數(shù)據→&₹中接入提高(gāo)業(yè)務的(de)容災能(né≥Ω•↔ng)力。
通(tōng)過監控、日(rì)志(zhì±ε©)分(fēn)析等技(jì)術(shù)手段,及∞δ <時(shí)發現(xiàn)和(hé)響應服務π 故障,減少(shǎo)服務中斷的(de)時(shí)間(jiān),使公司→≈的(de)互聯網業(yè)務符合預期的(de↑♣)可(kě)用(yòng)性要(yào)求,持續☆'δ¥穩定地(dì)為(wèi)用(yòng)戶提供務。
在安全方面,運維人(rén)員(yuán&™↓↕)需要(yào)關注業(yè)務運行(x§←¥íng)所涉及的(de)各個(gè)層面,确保用(yòng←φ)戶能(néng)夠安全、完整地(dì)訪問(wèn)÷↓≥在線業(yè)務。
從(cóng)網絡邊界劃分(fēn)、ACL 管理(₩ Ωlǐ)、流量分(fēn)析、DDoS 防禦,到§ (dào)操作(zuò)系統、開(kāi♥¥♦↕)源軟件(jiàn)的(de)漏洞掃描和(hé)修補,再到(d'ào)應用(yòng)服務的(de)XSS、SQL注入↓¶↔防護;
從(cóng)安全流程梳、代碼白(bái)≥α盒黑(hēi)盒掃描、權限審計(jì),到(dàΩ§α↔o)入侵行(xíng)為(wèi)檢測、業(yè¶₹♥)務風(fēng)險控制(zhì)等。
運維人(rén)員(yuán)需要(yào)保障公司提供的↑≈₹(de)互聯網業(yè) 運行(xíng)在安全、可(kě)控的(de)狀× ≠σ态下(xià),确保公司業(yè)務數(shùβ∏)據和(hé)用(yòng)戶隐私數(shù)據的(de)安全,同時(↑Ω≈shí)還(hái)需要(yào)具備抵禦各種惡意攻擊的(de)能(né® &ng)力。
在确保業(yè)務穩定、安全的(de)前提下₹>≤↕(xià),還(hái)需保障業(yè)務高(∏•↓₽gāo)效的(de)運轉,公司內(nèi)快(k×>♣>uài)速的(de)産出。運維工(gōng)作(zuò✘₩λ)需要(yào)對(duì)業(yè)務進行(xíng↓↔↔)各方面優化(huà)。
比如(rú),IO 優化(huà)提升數(∞β®λshù)據庫性能(néng),圖片壓縮降低(dī)帶寬使§→用(yòng)量等,提供的(de)互聯網業(yè)務以較小(x•±♥iǎo)的(de)資源投入帶來(lái)最大(dà)的(φ₹de)用(yòng)戶價值和(hé)體(t↓ǐ)驗。同時(shí),還(hái)需要(yào)通(tōng)過各種工γ★<×(gōng)具平台提升內(nèi)部産品發布交付的(de)效率,提升公司內≠÷(nèi)運維相(xiàng)關的(de)工(gōπ✔ng)作(zuò)效率。
工(gōng)作(zuò)分(fēn)類運維
運維的(de)工(gōng)作(zuò)方向比較多(duō),随著(zhe♣ ¥)業(yè)務規模的(de)不(bù)斷發展,越成熟的₩φ(de)互聯網公司,運維崗位會(huì)劃分(fē"σ n)得(de)越細。當前很(hěn)多(duō)大(dà)型的(de£✔±↕)互聯網公司,在初創時(shí)期隻有(yǒu)系©™✘統運維,随著(zhe)服務規模、服務質量的(de) ∞γ要(yào)求,也(yě)逐漸進行(xíng)了(le)工(gōng)作(zu≠₩£★ò)細分(fēn)。
一(yī)般情況下(xià)運維團隊的(de)工(gōng)↑≠作(zuò)分(fēn)類(見(jiàn)圖1> -1)和(hé)職責如(rú)下(xià)。
圖1-1 運維團隊的(de)工(gōng)作≠λ¶(zuò)分(fēn)類
系統運維
平均薪資:7800元/月(yuè)
系統運維負責IDC、網絡、CDN和(hé→↓)基礎服務的(de)建設(LVS、NTP、DNS);負責資産管理(lǐ)♠↓×,服務器(qì)選型、交付和(hé)維修。詳細的(d¥φ$λe)工(gōng)作(zuò)職責如(rú)下(xià)₽✘©↓:
1.IDC數(shù)據中心建設
收集業(yè)務需求,預估未來(lái)數(☆€ shù)據中心的(de)發展規模,從(cóng)骨幹網的(de)分(f♦₹ ≥ēn)布,數(shù)據中心建築,以及Internet接σ¥→入、網絡攻擊防禦能(néng)力、擴容能(πnéng)力、空(kōng)間(jiān)預留、外≠₹γ(wài)接專線能(néng)力、現(xiàn)場(chǎng)服務支撐♥"↔♣能(néng)力等方面評估選型數(shù)據中心。負責數(shù∞€)據中心的(de)建設、現(xiàn)場(chǎng)維護工(g₩α∞ōng)作(zuò)。
2.網絡建設
設計(jì)及規劃生(shēng)産網絡架構,這(zhè)裡(lǐ)面δ♦"包括:數(shù)據中心網絡架構、傳輸網架構、CD"N網絡架構等,以及網絡調優等日(rì)常運維工(gσ✔ōng)作(zuò)。
3.LVS 負載均衡和(hé) SNAT 建設
LVS 是(shì)整個(gè)站(zhàn)點架構中的(de)流量入口,根據&$網絡規模和(hé)業(yè)務需求,構建負載均衡集群。完成網π×絡與業(yè)務服務器(qì)的(de)÷ ®γ銜接,提供高(gāo)性能(néng)、高(gāo)可&α(kě)用(yòng)的(de)負載調度σ↔α"能(néng)力,以及統一(yī)的(de)網絡層防攻擊能(né¥"γ×ng)力。
SNAT .集中提供數(shù)據中心的(de)公網訪問(wèn)γ∞✔↓服務,通(tōng)過集群化(huà)部署∞$,保證出網服務的(de)高(gāo)性能(néng)與高(gāo)可∞(kě)用(yòng)。
4.CDN 規劃和(hé)建設
CDN 工(gōng)作(zuò)劃分(fēn)為(wèi)第三方和(Ωγ☆hé)自(zì)建兩部分(fēn)。
建立第三方 CDN 的(de)選型和(hé)$☆調度控制(zhì);根據業(yè)務發展趨勢,規劃CDN新節點建設布局;完₹≥∞善CDN業(yè)務及監控,保障CDN 系統穩定、高(gāo)效運行($£ ≈xíng)。
分(fēn)析業(yè)務加速頻(pín)道(dào)的(de)文(wén)÷↕©件(jiàn)特性和(hé)數(shù)量,制(zhì)定最優的≤ε≥(de)加速策略和(hé)資源匹配;負責用(yòng)戶劫持等CDN日 ←(rì)常故障排查工(gōng)作(zuò)。
5.服務器(qì)選型、交付和(hé)維護
負責服務器(qì)的(de)測試選型,包含服務器(qì)整機(j∑₩ī)、部件(jiàn)的(de)基礎性測試和©☆(hé)業(yè)務測試,降低(dī)整機(jī≠δ≥)功率,提升機(jī)架部署密度等。
結合對(duì)公司業(yè)務的(de)了(le)解φ☆,推廣新硬件(jiàn)、新方案減少(shǎo)σ>β業(yè)務的(de)服務器(qì)投入規模。負責服務器(qì)硬件(ji¶£↓®àn)故障的(de)診斷定位,服務器(qì)硬件(¥"♠δjiàn)監控、健康檢查工(gōng)具的(de)開(kāi)發和(hé)維護λ £。
6.OS、內(nèi)核選型和(hé) OSε δ± 相(xiàng)關維護工(gōng)作↔ (zuò)
負責整體(tǐ)平台的(de) OS 選型、定制(zhì)和(↔↓♦hé)內(nèi)核優化(huà),以及 Patch 的(de)更新和(héπ★≥)內(nèi)部版本發布;建立基礎的(de)∏<₹¥YUM包管理(lǐ)和(hé)分(fēn)發中心,提供常用(y♥©òng)包版本庫;跟進日(rì)常各類 O←♣S 相(xiàng)關故障;針對(duì)不(bù)同的(de)業(yè)務類← ®★型,提供定向的(de)優化(huà)支持。
7.資産管理(lǐ)
記錄和(hé)管理(lǐ)運維相(xiàng)關的(de≠)基礎物(wù)理(lǐ)信息,包括數(shù)據中心、網絡、機$☆♣♦(jī)櫃、服務器(qì)、ACL、IP等各種資源信息,制(z'↑γ"hì)定有(yǒu)效的(de)流程,确保信息的(de)準确性;開∞ ≠(kāi)放(fàng)API接口,為(wèi)自(zβ↕"$ì)動化(huà)運維提供數(shù)據支持。
8.基礎服務建設
業(yè)務對(duì) DNS、NTP、SYSL☆ OG 等基礎服務的(de)依賴非常高(gāo),需要(yào)設計(jì'♣€↔)高(gāo)可(kě)用(yòng)架構避免•<單點,提供穩定的(de)基礎服務。
應用(yòng)運維
平均薪資:6000元/月(yuè)
應用(yòng)運維負責線上(shàng)服務的(de)γΩ變更、服務狀态監控、服務容災和(hé)數(shù)據備份等工(π←∞☆gōng)作(zuò),對(duì)服務進行(xíng)例行(xínα ♦$g)排查、故障應急處理(lǐ)等工(gōng)作(zuò)。詳細的(d×★e)工(gōng)作(zuò)職責如(rú)下Ω ∏(xià)所述。
1.設計(jì)評審
在産品研發階段,參與産品設計(jì)評審,從(cóng)運維的(de)角度λε×提出評審意見(jiàn),使服務滿足運維準★≤入的(de)高(gāo)可(kě)用(yòng<)要(yào)求。
2.服務管理(lǐ)
負責制(zhì)定線上(shàng)業(yè)務升級變更及回滾方案Ω•α,并進行(xíng)變更實施。掌握所負責的(de)服務φ♣♦✔及服務間(jiān)關聯關系、服務依賴的(de)∞∞各種資源。能(néng)夠發現(xiàn)服務上(shàng)♦™♣≥的(de)缺陷,及時(shí)通(tōng)報(bào)并推進解'π←π決。
制(zhì)定服務穩定性指标及準入标準,同時(shí)不(bù)斷完善和("σ↑✘hé)優化(huà)程序和(hé)系統的(de)功能(néng>¶ )、效率,提高(gāo)運行(xíng)≠"₩↕質量。完善監控內(nèi)容,提高(gāo)報(bào)警準确度。
在線上(shàng)服務出現(xiàn)故障時(shí),第一(yī)時(β×∑≥shí)間(jiān)響應,對(duì)已知(zhī)線上(shàng)故障¶σ✔能(néng)按流程進行(xíng)通(tε♠↓'ōng)報(bào)并按預案執行(xíng)₩✘₹♦,未知(zhī)故障組織相(xiàng)∞π'關人(rén)員(yuán)聯合排障。
3.資源管理(lǐ)
對(duì)各服務的(de)服務器(qì)資産進行(xíng)πα&管理(lǐ),梳理(lǐ)服務器(qì)資源狀況、數(sh≥☆ù)據中心分(fēn)布情況、網絡專線及γ↓♣帶寬情況,能(néng)夠合理(lǐ)使用(yòng)服₽務器(qì)資源,根據不(bù)同服務的(de)需求,分(fēn)配不(bù®≤)同配置的(de)服務器(qì),确保服務器(qì)資源的(de)充分(☆&βσfēn)利用(yòng)。
4.例行(xíng)檢查
制(zhì)定服務例行(xíng)排查點,并不(b©"☆ ù)斷完善。根據制(zhì)定的(de)服務排查點,對(duì)≠✔↓服務進行(xíng)定期檢查。對(duì)排查過程∑₹中發現(xiàn)的(de)問(wèn)題,及時(shí)進行(xíng)追查↑→&®,排除可(kě)能(néng)存在的(de)隐患。
5.預案管理(lǐ)
确定服務所需的(de)各項監控、系統指标的(de)阈值或臨界點,以及出π©現(xiàn)該情況後的(de)處理(lǐ)預案。建立和≠₹(hé)更新服務預案文(wén)檔,并根據日(•®λrì)常故障情況不(bù)斷補充完善,提高(π gāo)預案完備性。能(néng)夠制(zhì)定和(hé)評審各類預案,¥¥β周期性進行(xíng)預案演練,确保預案的(de)可✘÷↑(kě)執行(xíng)性。
6.數(shù)據備份
制(zhì)定數(shù)據備份策略,按規範進行(xíng)數(sh©≤≠ù)據備份工(gōng)作(zuò)。保證數(shù)&ε♥據備份的(de)可(kě)用(yòng)性和(hé)<λ完整性,定期開(kāi)展數(shù)據恢複性測試。
數(shù)據庫運維
平均薪資:9500元/月(yuè)
數(shù)據庫運維負責數(shù)據存儲方案設計(₽•∏jì)、數(shù)據庫表設計(jì)、索引設計(jì)和≤•(hé)SQL優化(huà),對(duì)數(shù)據庫進行(xíng↕π)變更、監控、備份、高(gāo)可(kě)用(yòng)設↔α←計(jì)等工(gōng)作(zuò)。詳細的(de)工(gōng)作(δΩεzuò)職責如(rú)下(xià)所述。
1.設計(jì)評審
在産品研發初始階段,參與設計(jì)方案評審,從(c→óng)DBA的(de)角度提出數(shù)✘∞據存儲方案、庫表設計(jì)方案、SQL開★♠(kāi)發标準、索引設計(jì)方案等♠φ,使服務滿足數(shù)據庫使用(yòng)的(de)高(gāo)可(kě)↑≥$用(yòng)、高(gāo)性能(néng)要(yào)求。
2.容量規劃
掌握所負責服務的(de)數(shù)據庫的(de)容量上(shàng)限,清β≠✔"楚地(dì)了(le)解當前瓶頸點,當服務還™• ∞(hái)未到(dào)達容量上(shàng)限時(shí),及時(₽★♠shí)進行(xíng)優化(huà)、分(fēn)拆λ↓ε或者擴容。
3.數(shù)據備份與災備
制(zhì)定數(shù)據備份與災備策略,定期完成數(shù)據恢複性₽$λ測試,保證數(shù)據備份的(de)可(kě)用(yòng)性和(h÷ →é)完整性。
4.數(shù)據庫監控
完善數(shù)據庫存活和(hé)性能(nénε♥★♥g)監控,及時(shí)了(le)解數(shù)據庫運行(xíng )狀态及故障。
數(shù)據庫安全
建設數(shù)據庫賬号體(tǐ)系,嚴格控制(zhì)賬号權£ §限與開(kāi)放(fàng)範圍,降低(dī)誤操作(zuò)÷>≥γ和(hé)數(shù)據洩露的(de)風(fēng)險;加強離(l₽☆©í)線備份數(shù)據的(de)管理(lǐ),降低(dī<γ✔ )數(shù)據洩露的(de)風(fēng)險。
5.數(shù)據庫高(gāo)可(kě)用(yòng)和(hé)$™γ→性能(néng)優化(huà)
對(duì)數(shù)據庫單點風(fēng) σ"®險和(hé)故障設計(jì)相(xiàng)應的(de)切換方案,降低(dī)ε←故障對(duì)數(shù)據庫服務的(de)>€∞影(yǐng)響;不(bù)斷對(duì)數(shù)據庫整 γ 體(tǐ)性能(néng)進行(xíng)優化(huà),包括新存β∏¥∞儲方案引進、硬件(jiàn)優化(huà)、文(wλβén)件(jiàn)系統優化(huà)、數(shù)據庫≥γ優化(huà)、SQL優化(huà)等,在保障Ω♥≈成本不(bù)增加或者少(shǎo)量增加的(de)情況下(≠xià),數(shù)據庫可(kě)以支♣£撐更多(duō)的(de)業(yè)務請(qǐng)¥≥✔&求。
6.自(zì)動化(huà)系統建設
設計(jì)開(kāi)發數(shù)據庫δ± 自(zì)動化(huà)運維系統,包括數(shù)據庫部署✔γ•、自(zì)動擴容、分(fēn)庫分(fēn)表、權限管理(₩♣★lǐ)、備份恢複、SQL審核和(hé)上(shàδ♠ng)線、故障切換等功能(néng)。
7.運維研發
運維研發負責通(tōng)用(yòng)的(de)運 ♣≥維平台設計(jì)和(hé)研發工(gōng)作(zuò≥ ),如(rú):資産管理(lǐ)、監控系統、運維平台、數(s↕≈₹hù)據權限管理(lǐ)系統等。提供各種API供$ε運維或研發人(rén)員(yuán)使用©÷(yòng),封裝更高(gāo)層的(de)自(zì)動化(huà)運π±€↑維系統。詳細的(de)工(gōng)作(zuò)職'&責如(rú)下(xià)所述。
8.運維平台
記錄和(hé)管理(lǐ)服務及其關聯關系,協助♠<運維人(rén)員(yuán)自(zì)動化(huà)、流程化(h♠♣uà)地(dì)完成日(rì)常運維操作(÷≥♥•zuò),包括機(jī)器(qì)管理(lǐ)、重啓、改¶'名、初始化(huà)、域名管理(lǐ)、流量切換和(hé☆±)故障預案實施等。
9.監控系統
負責監控系統的(de)設計(jì)、開(kāi)發工(gōng)作(zuò♦≈₽↕),完成公司服務器(qì)和(hé)各種網✔φ絡設備的(de)資源指标、線上(shàng♦↕©§)業(yè)務運行(xíng)指标的(de)收集、告警、存儲 ¥★¥、分(fēn)析、展示和(hé)數(shù)據挖掘等工(✘★♠&gōng)作(zuò),持續提高(gāo)告警的(de)及時(shí)性、準π 确性和(hé)智能(néng)性,促進公♣÷↕司服務器(qì)資源的(de)合理(lǐ$®¥)化(huà)調配。
10.自(zì)動化(huà)部署系統
參與部署自(zì)動化(huà)系統的(de)開(kā'±i)發,負責自(zì)動化(huà)部署系統所需要(yào)的(de₹®≈÷)基礎數(shù)據和(hé)信息,負責權限管≈γ'理(lǐ)、API開(kāi)發、Web端開(kā<✘→i)發。結合雲計(jì)算(suàn),研發和(hé)提供PaaS相(xiànπ >♦g)關高(gāo)可(kě)用(yòng)平台,∏ ©±進一(yī)步提高(gāo)服務的(de)部署速度和(hé)∑↕✔&用(yòng)戶體(tǐ)驗,提升資源利用σ★€(yòng)率。
運維安全
&nbs"↕p;
平均薪資:8500元/月(yuè)
運維安全負責網絡、系統和(hé)業(yè)務等方面的(de)安全加固≥≤工(gōng)作(zuò),進行(xíng)常規的(de)安全掃描、滲透測δ→₽試,進行(xíng)安全工(gōng)具和(hé)系統研發以£γ及安全事(shì)件(jiàn)應急處理(•₩₩±lǐ)。詳細的(de)工(gōng)作(zuò)職責如(rú)下(xià)所述λ'≤。
1.安全制(zhì)度建立
根據公司內(nèi)部的(de)具體(tǐ)流程,制(zhì)定切實可↕≥∑λ(kě)行(xíng),且行(xíng)之有(yǒu)效的(de)安全制(zh∑>•♥ì)度。
2.安全培訓
定期向員(yuán)工(gōng)提供具有(yǒu)針對'÷>(duì)性的(de)安全培訓和(hé)考核,在全公司內(nèi)建立®★↓安全負責人(rén)制(zhì)度。
3.風(fēng)險評估
通(tōng)過黑(hēi)白(bái)盒測試和(hé)檢查機(jī)制(z&≥hì),定期産生(shēng)對(duì)物(wù)理(l♣αǐ)網絡、服務器(qì)、業(yè)務應用(yòng)、用(yòngα∏ε )戶數(shù)據等方面的(de)總體(tǐ) ₽風(fēng)險評估結果。
4.安全建設
根據風(fēng)險評估結果,加固最薄弱的(de)環節×≤₹₽,包括設計(jì)安全防線、部署安全設備、及時(shíλ✔$±)更新補丁、防禦病毒、源代碼自(zì)動≠<↑≤掃描和(hé)業(yè)務産品安全咨詢等。為(wèi)了>α₩(le)降低(dī)可(kě)能(néng)洩露數(s∞♣hù)據的(de)價值,通(tōng)過加密、匿名化(huà)、混÷↔淆數(shù)據,乃至定期删除等技(jì)術(₽∞<shù)手段和(hé)流程來(lái)達到←✘☆®(dào)目的(de)。
5.安全合規
為(wèi)了(le)滿足例如(rú)支付牌照(zh®∑★¥ào)等合規性要(yào)求,安全團隊承擔著(zhe↔©↑)安全合規的(de)對(duì)外(wài)©φ©↓接口人(rén)工(gōng)作(zuò)。
6.應急響應
建立安全報(bào)警系統,通(tōng)過安全中心收÷←集第三方發現(xiàn)的(de)安全問(wèn)題,組γ§ε織各部門(mén)對(duì)已經發現(xiàn)的(de)安全問(wèn)題≤ ∑Ω進行(xíng)修複、影(yǐng)響面評估®¥、事(shì)後安全原因追查。
運維工(gōng)作(zuò)發展過程
早期的(de)運維團隊在人(rén)員(yuán)較少(shǎo)的(de)情≤>σ÷況下(xià),主要(yào)是(shì)進行(xíng)數(✔♣→shù)據中心建設、基礎網絡建設、服務器(qì)采購(gòu)和≈↓∏∏(hé)服務器(qì)安裝交付工(gōng)作(zuò)。幾乎很(hěn)™✘∏↓少(shǎo)涉及線上(shàng)服務的(de)變更、監控♦€γ±、管理(lǐ)等工(gōng)作(zuò)。
這(zhè)個(gè)時(shí)候的(de)運維團隊更多(duō)的(de ±)屬于基礎建設的(de)角色,提供一(yī)個(gè)簡單、可(kě)用®♠(yòng)的(de)網絡環境和(hé)系統環境即可(kě)。
随著(zhe)業(yè)務産品的(de)逐漸成熟,對♠ (duì)于服務質量方面就(jiù)有(yǒ×δσ♦u)了(le)更高(gāo)的(de)要(y≈₹ ào)求。這(zhè)個(gè)時(shí)候的(de)運維團隊還(hái)會φ§(huì)承擔一(yī)些(xiē)服務器(qì)監控的(de)工(gō±≠↕↑ng)作(zuò),同時(shí)會(huì)負責 LVS、Nginxφ£ 等與業(yè)務邏輯無關的(de) 4/7 層運維工(g¶α∞♠ōng)作(zuò)。
這(zhè)個(gè)時(shí)候服務變更更多(duō)的(de)是≈↔→(shì)逐台的(de)手工(gōng)操作(zuò),或↓α>←者有(yǒu)一(yī)些(xiē)簡單批量腳本©↕的(de)出現(xiàn)。監控的(de)焦點更多(duō)的( εde)在服務器(qì)狀态和(hé)資源使用(yòng)情況上ε→₹(shàng),對(duì)服務應用(yòng)狀态♣↓的(de)監控幾乎很(hěn)少(shǎo),監控更多(duō)的(de)使用π₽(yòng)各種開(kāi)源系統如(r≥πú)Nagios、Cacti等。
由于業(yè)務規模和(hé)複雜(zá)度的(de)持續增加,運維團隊會(h& uì)逐漸劃分(fēn)為(wèi)應用(yΩ≠©òng)運維和(hé)系統運維兩大(dà)塊。→$ ×應用(yòng)運維開(kāi)始接手線上(shàng)業(yè)務÷Ω,逐步開(kāi)展服務監控梳理(lǐ)←λππ、數(shù)據備份以及服務變更的(de)'®工(gōng)作(zuò)。
随著(zhe)對(duì)服務的(de)深入,應用(yò$ε₹ng)運維工(gōng)程師(shī)有(yǒu)¶≠∞λ能(néng)力開(kāi)始對(duì)服務進行(xíng)一(y®>ī)些(xiē)簡單的(de)優化(huà)。同時(shí),Ω♦≤≤為(wèi)了(le)應對(duì)每天大(dà)量的(de)服務變更,我們也€₩×$(yě)開(kāi)始編寫各類運維工(gōng)具,針對(duì±<"$)某些(xiē)特定的(de)服務能(néng)夠很(hěn)方便的(d↓™♣e)批量變更。
随著(zhe)業(yè)務規模的(de)增大(dà×♠✘),基礎設施由于容量規劃不(bù)足或抵禦風(fēng)險能(ε≥™ néng)力較弱導緻的(de)故障也(yě)₽∏♦越來(lái)越多(duō),迫使運維人(rén)員(♠₩>yuán)開(kāi)始将更多(duō)的(de)精力投入到₩£ ₹(dào)多(duō)數(shù)據中心容災、預案管理(∑♣¶ lǐ)的(de)方向上(shàng)。
業(yè)務規模達到(dào)一(yī)定程度後,開(Ω→Ωkāi)源的(de)監控系統在性能(néng)和σ♣(hé)功能(néng)方面,已經無法滿足業(yè)務需≠'§求;大(dà)量的(de)服務變更、複雜(zá)的(de)服務©"★關系,以前靠人(rén)工(gōng)記錄、工(gō ≠ ≠ng)具變更的(de)方式不(bù)管在效率還(hái ↑)是(shì)準确性方面也(yě)都(dōu"λ>→)無法滿足業(yè)務需求。
在安全方面也(yě)出現(xiàn)了(le)各種大¶γα(dà)大(dà)小(xiǎo)小(xiǎo)的(de)事(shì)件πγ$(jiàn),迫使我們投入更多(duō)的(de)精✔©力在安全防禦上(shàng)。逐漸的(de),運維團→•隊形成之前提到(dào)的(de)5個(§÷™gè)大(dà)的(de)工(gōng)作(π↔zuò)分(fēn)類,每個(gè)分(fēn)類都(dōu>≤γ$)需要(yào)有(yǒu)專精的(de)人(rén)才。
這(zhè)個(gè)時(shí)候系統運維更專注于基礎設施的(de ₽≠)建設和(hé)運維,提供穩定、高(gāo)效的(de)'σφ×網絡環境,交付服務器(qì)等資源給應用(yòngγ≤₽)運維工(gōng)程師(shī)。應用(yòng)運維ו♥<更專注于服務運行(xíng)狀态和(hé)效率。
數(shù)據庫運維屬于應用(yòng)運維工(gōng)作(zuò)的(de<)細化(huà),更專注于數(shù)據庫領域的(←✘®÷de)自(zì)動化(huà)、性能(néng)優化(huà)₩δ≥•和(hé)安全防禦。運維研發和(hé)運維安全提供各類$γ平台、工(gōng)具,進一(yī)步提升運維工(gōng)ε•程師(shī)的(de)工(gōng)作(zuò)效率,使業(y☆Ωè)務服務運行(xíng)得(de)更加穩定、高(gāo)效和β♥α(hé)安全。
手工(gōng)管理(lǐ)階段:業(yè)務流量不(bù)大(dà),服務器(qì)數(shù)量相" ∞¶(xiàng)對(duì)較少(shǎo),系φ<統複雜(zá)度不(bù)高(gāo)。對(duì)于日(rì)常ε的(de)業(yè)務管理(lǐ)操作(zuò),大(dà)家¥λ×(jiā)更多(duō)的(de)是(shì)逐台登錄服務器↓↔↕<(qì)進行(xíng)手工(gōng)操作(zuò),屬于Ω↕α€各自(zì)為(wèi)戰,每個(gè)人(rén)都↕∏(dōu)有(yǒu)自(zì)己的(de)操作(•₹zuò)方式,缺少(shǎo)必要(yào)的(de)操作(zuò)标準€∏₩、流程機(jī)制(zhì),比如(rú)業(yè)務目錄環境都π"&(dōu)是(shì)各式各樣的(de)。
工(gōng)具批量操作(zuò)階段:随著(zhe)服務器(qì)規模、系統複雜(zá)度的(de)增加,全人(Ω¶₹rén)工(gōng)的(de)操作(zuò)方式已經不(bù↓¥$)能(néng)滿足業(yè)務的(de)快¥★(kuài)速發展需要(yào)。因此,運維人(&×rén)員(yuán)逐漸開(kāi)始使用(yòn"÷☆g)批量化(huà)的(de)操作(zuò)工(gōng)具>,針對(duì)不(bù)同操作(zuò)類型出現(xiεφ'λàn)了(le)不(bù)同的(de)腳本程序。
但(dàn)各團隊都(dōu)有(yǒu)自(zì)己的±✔≠↔(de)工(gōng)具,每次操作(zuò)需求發生(shēng)變 化(huà)時(shí)都(dōu)需要(£β"∞yào)調整工(gōng)具。這(zhè)主要(yà☆₽o)是(shì)因為(wèi)對(duì)于環境、操作(zuò)的©®≈(de)規範不(bù)夠,導緻可(kě)程∑÷'≥序化(huà)處理(lǐ)能(néng)λ∑力較弱。此時(shí),雖然效率提升了(le)一(yī)部分(♠€♥↑fēn),但(dàn)很(hěn)快(kuài)又( €'♥yòu)遇到(dào)了(le)瓶頸。
操作(zuò)的(de)質量并沒有(yǒu)太多(duō)的(de)提₽©δ升,甚至可(kě)能(néng)因為(wèi)批量執行(xε♥∏íng)而導緻更大(dà)規模的(de)問(wèn)題出現(xiàn)σ®β>。我們開(kāi)始建立大(dà)量的(de)流程規×≠♥範,比如(rú)複查機(jī)制(zhì),先上(shàn∏±>g)線一(yī)台服務器(qì)觀察10✘•分(fēn)鐘(zhōng)後再繼續後面Ω•$"的(de)操作(zuò),一(yī)次升級完成後至少(shǎo<λ)要(yào)觀察20分(fēn)鐘(zhōngΩ¥∞")等。
這(zhè)些(xiē)主要(yào)還(&≠hái)是(shì)靠人(rén)來(lái)監督和(hé)$執行(xíng),但(dàn)在實際過程中執↓α÷>行(xíng)往往不(bù)到(dào)位,反而降低(dī)了(le)工(∑φ"↑gōng)作(zuò)效率。
平台管理(lǐ)階段:在這(zhè)個(gè)階段,對(duì)于運維效率和(hé)誤操作(zuò)↓¶率有(yǒu)了(le)更高(gāo)的(de)要(yào)求,>₹我們決定開(kāi)始建設運維平台,通(tōng α¶≥)過平台承載标準、流程,進而解放(fàng)人(rén)✔<♠力和(hé)提高(gāo)質量。
這(zhè)個(gè)時(shí)候對(duì)服務 ♠的(de)變更動作(zuò)進行(xíngβ♦•±)了(le)抽象,形成了(le)操作(zuò)方法、服<★✔♥務目錄環境、服務運行(xíng)方式等統一(y®λ÷ī)的(de)标準,如(rú)程序的(de)啓停接口必須包括啓動、•→>₩停止、重載等。通(tōng)過平台來(lái)約束操作(δγ↕€zuò)流程,如(rú)上(shàng)面提到(d" ào)的(de)上(shàng)線一(yī)台服務器(qì)€₩觀察10分(fēn)鐘(zhōng)。
在平台中強制(zhì)設定暫停檢查點,在第一(yī)台服務器(qì)操作§→∞↓(zuò)完成後,需要(yào)運維人(rén)員(yuán)填寫相σ♣₹(xiàng)應的(de)檢查項,然後才可(kě)以繼續執行(xíng)₹ε×後續的(de)部署動作(zuò)。
系統自(zì)調度階段:更大(dà)規模的(de)服務數(sh↔↓"ù)量、更複雜(zá)的(de)服務關聯關系、各個(gè)運維平台≥★♠的(de)林(lín)立,原有(yǒu)的(÷✔₩de)将批量操作(zuò)轉化(huà)成平台操作(zuò)的(de)方式已經÷₽不(bù)再适合,需要(yào)對(duì)服務變更進行(xíng)更高"₽☆β(gāo)一(yī)層的(de)抽象。
将每一(yī)台服務器(qì)抽象成一(yī)個(gè)容器(qì×®≠<),由調度系統根據資源使用(yòng)情況,将服務調度、部署到(dào)α•★合适的(de)服務器(qì)上(shàng),自(zì)動&γε 化(huà)完成與周邊各個(gè)運維系統的(de)聯動,比如(rú)監控系≤±£統、日(rì)志(zhì)系統、備份系統等。
通(tōng)過自(zì)調度系統,根據服務運行(xíng)情況動态伸縮容量,÷ε能(néng)夠自(zì)動化(huà)處理(lǐ)γ€常見(jiàn)的(de)服務故障。運維人(rén)員(yuán)的✔ (de)工(gōng)作(zuò)也(yě)會(huì)前置₩×到(dào)産品設計(jì)階段,協助研←λ&發人(rén)員(yuán)改造服務使其可(kě)以接入"•♥到(dào)自(zì)調度系統中。
在整個(gè)運維的(de)發展過程中,希望所有(yǒu)的(de)工(gōn✔g)作(zuò)都(dōu)自(zì)動化(∞"huà)起來(lái),減少(shǎo)人(rén)×∏γ的(de)重複工(gōng)作(zuò),降低(dī)知(zhī)識≤傳遞的(de)成本,使我們的(de)運維交付更高>÷α(gāo)效、更安全,使産品運行(xíng)更穩定。對(duì)于故障♥✘的(de)處理(lǐ),也(yě)希望由事(shì)後處理(lǐ"©ε®)變成提前發現(xiàn),由人(rén)工(gō∑☆ng)處理(lǐ)變成系統自(zì)動容災。
文(wén)章(zhāng)轉載自(zì):la♥₽¶¥iwei
原文(wén)地(dì)址:http://t.cnα≥<♣/RoPJWSZ