華文網

從0到1600萬,業務暴增的美團外賣是如何進行運維工作的?

90後專欄作家李宮俊曾寫過這樣一句話“生我者父母,養我者父母,”這從某個角度反映了外賣已經成為了我們日常生活中的重要組成部分。美團外賣作為國內線上商品交易與及時送達的重要O2O電商交易平臺,

其業務運維的經驗極具參考價值。

▲美團外賣業務架構組負責人 劉宏偉

2017年10月19日-21日,由IT 168主辦的第九屆系統架構師大會在北京新雲南皇冠假日酒店盛大開幕,“智慧化運維&DevOps”技術專場中來自美團外賣業務架構組負責人劉宏偉,

為我們分享了美團外賣自動化業務運維系統的建設。

流程複雜、流量陡增、業務迅猛是美團外賣的三大特點

外賣業務的流程十分複雜,從使用者下單、商家接單、騎手接單、發配送、用戶收到熱乎乎的外賣,這一系列流程需要在20多分鐘之內完成。而且其後臺服務交互也十分複雜,整個產品線上涉及很多資料分析,統計,結算,合同等各個端的交互,一致性要求高,併發高。

外賣業務每天10點開始開始陡增,在11:30左右達到午高峰,在這短短的90分鐘內流量會陡增5倍多,而且這個流量陡增是週期性變化的,每天都會重演一次。

除此之外,美團外賣的另一個特點就是業務增長十分迅猛,2013年上線到現在,只用了不到四年時間,

其日提單就從0暴漲到2000萬,日完成訂單1600萬。劉宏偉表示,其業務產品一直處在高速反覆運算,某個資料訪問服務組日均120億+訪問, qps 近40萬了,午高峰只要發生一個小小的事故,就會引起比較大的損失。

業務發展倒逼技術進步,美團外賣運維工作的新挑戰

基於以上發展特點,劉宏偉表示美團外賣業務運維工作存在以下挑戰:各種維度的事件通知、報警充斥著開發人員的IM,需要耗費很多精力去優化配置報警閾值、報警等級才不會出現很多誤報;公司有多套監控系統,

但是它們之間沒有關聯性,開發人員在排查問題時需要帶著參數在不同的系統之間切換;代碼中會有大量的降級限流開關,但隨著產品快速的反覆運算,無法確定這些開關是否還有效。

運維人員在日常工作中的排查經驗完全實現流程標準化,並在進一步實現電腦自動化。在問題的定位和診斷越來越準確時,

可以進一步減少人為干預,實現問題排查流程智慧化,真正將人從日常運維工作中解放出來。

積基樹本,美團外賣的重點系統體系建設

任何一件事情的完成都不是一蹴而就的,而是循序漸進、不斷演變的,美團外賣自動化業務運維系統的建設也不例外。據劉宏偉介紹目前美團外賣的重點系統體系建設包括體系架構、業務大盤、核心鏈路、服務保護&故障演練和整合全鏈路壓測。

▲體系架構

在整個自動化業務運維系統中,業務大盤與核心鏈路作為用戶使用的入口,分析核心鏈路上服務狀態,定位最終的問題節點,並觸發服務保護預案。除此之外,還要定期通過全鏈路壓測來不斷驗證問題診斷。

▲核心鏈路

核心鏈路是系統主要的使用入口,用戶可以通過核心鏈路快速定位是哪一個調用鏈出現問題。

▲服務保護&故障演練模組

服務保護&故障演練模組是讓業務運維體系形成閉環的重要部分。針對不同的保護需求會有不同類型的服務保護開關,例如降級開關、限流開關等等。

▲全鏈路壓測

美團外賣會定期進行全鏈路壓測,針對壓測流量進行不同場景的故障演練,在製造故障的同時,驗證服務保護預案是否可以像預期那樣啟動保護服務。

▲更多精彩盡在IT168專題報導

據劉宏偉介紹目前美團外賣的重點系統體系建設包括體系架構、業務大盤、核心鏈路、服務保護&故障演練和整合全鏈路壓測。

▲體系架構

在整個自動化業務運維系統中,業務大盤與核心鏈路作為用戶使用的入口,分析核心鏈路上服務狀態,定位最終的問題節點,並觸發服務保護預案。除此之外,還要定期通過全鏈路壓測來不斷驗證問題診斷。

▲核心鏈路

核心鏈路是系統主要的使用入口,用戶可以通過核心鏈路快速定位是哪一個調用鏈出現問題。

▲服務保護&故障演練模組

服務保護&故障演練模組是讓業務運維體系形成閉環的重要部分。針對不同的保護需求會有不同類型的服務保護開關,例如降級開關、限流開關等等。

▲全鏈路壓測

美團外賣會定期進行全鏈路壓測,針對壓測流量進行不同場景的故障演練,在製造故障的同時,驗證服務保護預案是否可以像預期那樣啟動保護服務。

▲更多精彩盡在IT168專題報導