在當今數(shù)字化時代,金融機構(gòu)的云遷移與分布式系統(tǒng)擴展面臨著諸多挑戰(zhàn)與機遇。摩根大通旗下的Chase.com在云遷移過程中積累了豐富的經(jīng)驗,其圍繞三大核心目標展開的策略,為大規(guī)模系統(tǒng)管理提供了極具價值的參考。
在規(guī)劃系統(tǒng)擴展時,人們往往只能預估兩到三倍的負載增長。然而,互聯(lián)網(wǎng)環(huán)境下,入站流量的規(guī)模、時間和使用模式難以控制。無論是合法業(yè)務增長帶來的流量,還是惡意攻擊者的行為,都可能引發(fā)巨大的負載激增。安全控制措施雖能阻止惡意流量,但市場波動引發(fā)的真實客戶需求激增卻需要系統(tǒng)具備應對能力。此時,多個組件可能同時故障,網(wǎng)絡(luò)設(shè)備、負載均衡器、應用程序和數(shù)據(jù)庫連接都可能中斷。
Chase.com的云遷移聚焦于三大核心目標:以高成本效益和高效的方式實現(xiàn)彈性擴展、確保高韌性以及提供卓越性能。對于金融機構(gòu)而言,高韌性尤為重要,而卓越性能則能防止用戶因系統(tǒng)遲緩而轉(zhuǎn)向其他服務。
在實現(xiàn)高效擴展方面,分析客戶使用模式和行為是關(guān)鍵。組織需在保持彈性擴展能力的同時,發(fā)展預測能力。整體容量管理也不容忽視,單純增加服務器并非成功之道,還需權(quán)衡成本因素。流量模式是高效擴展的基礎(chǔ),平均流量是日常處理的基準,可預測模式如工資入賬等周期性事件會促使客戶查詢賬戶余額,全年還有季節(jié)性高峰。而突發(fā)事件如DDoS攻擊會帶來不同挑戰(zhàn),其流量可能遠超正常負載。基于已知模式進行容量規(guī)劃可預防運維問題,但彈性擴展存在局限性,應用程序啟動和建立連接需要時間,大量請求在此期間涌入會導致資源爭用。因此,預留計算容量十分必要,它能保證資源在需要時可用,尤其在多租戶共享資源池出現(xiàn)爭用時,還能帶來成本節(jié)約。同時,成本管理需持續(xù)關(guān)注,定期應用FinOps流程。
擴展不應局限于增加服務器。當發(fā)生擴展時,要判斷應用程序是否因真實客戶需求而擴展,還是因上游服務排隊導致響應變慢。線程等待響應會使CPU和內(nèi)存壓力上升,觸發(fā)彈性擴展。這要求在設(shè)計中考慮容錯,并將斷路器整合到擴展策略中。當上游服務變慢或失敗時,斷路器可防止應用無限期等待響應,強制設(shè)置超時限制,避免線程耗盡、減少不必要資源消耗,防止錯誤觸發(fā)擴展。
韌性要求為系統(tǒng)故障做好準備,早期檢測和隨時執(zhí)行故障轉(zhuǎn)移程序至關(guān)重要。但為所有組件實現(xiàn)100%的可用性既不現(xiàn)實也無必要。基礎(chǔ)設(shè)施可根據(jù)關(guān)鍵性分為四個層級。關(guān)鍵類組件如DNS,必須盡可能接近100%可用;可管理層組件在故障時可通過故障轉(zhuǎn)移維持運行,目標為“四個九”的可用性;可容忍層組件具備內(nèi)置韌性,如緩存長期數(shù)據(jù)的令牌服務;可接受層組件允許有限數(shù)據(jù)丟失,如某些日志系統(tǒng),韌性目標由影響嚴重程度決定。
性能會顯著影響用戶體驗和基礎(chǔ)設(shè)施成本。通過部署接入點(PoP)可提升用戶體驗,尤其對網(wǎng)站延遲敏感的移動設(shè)備。速度能建立用戶信任,搜索引擎已將速度納入排名算法。在網(wǎng)絡(luò)連接受限場景下,移動端性能尤為關(guān)鍵。從基礎(chǔ)設(shè)施角度看,客戶完成任務時間越少,運營成本越低。Chase.com通過實施全面性能策略,系統(tǒng)延遲降低了71%,這些策略可適配其他業(yè)務場景。
其架構(gòu)方法圍繞五個重點領(lǐng)域展開。多區(qū)域部署通過隔離和分段實現(xiàn)功能化解耦,有助于管理區(qū)域、可用區(qū)和網(wǎng)絡(luò)故障,限制故障爆炸半徑。實現(xiàn)多區(qū)域架構(gòu)需解決DNS管理問題,協(xié)調(diào)不同區(qū)域獨立負載均衡器,確定區(qū)域間和區(qū)域內(nèi)流量調(diào)度策略。可用區(qū)故障時,若應用未將依賴系統(tǒng)狀態(tài)納入健康檢查,負載均衡器會繼續(xù)路由流量導致應用失敗,解決方案包括將依賴系統(tǒng)健康狀態(tài)反饋給負載均衡器或采用基于代理的重路由機制。區(qū)域性故障時,依賴統(tǒng)一的區(qū)域健康脈搏檢查,根據(jù)應用分段情況決定是否故障轉(zhuǎn)移,但故障轉(zhuǎn)移可能引發(fā)“驚群效應”。跨區(qū)域的數(shù)據(jù)復制與確保數(shù)據(jù)一致性是主要關(guān)注點,客戶分片是一種可行方案。狀態(tài)管理需為活躍會話維護會話親和性并支持故障轉(zhuǎn)移。
高性能對用戶體驗至關(guān)重要,邊緣計算是實現(xiàn)性能目標的主要手段。可將靜態(tài)內(nèi)容卸載至靠近客戶的入網(wǎng)點,源服務器處理動態(tài)操作和關(guān)鍵服務。流量整形可對流量分類,關(guān)鍵服務資源必須始終保持運行。地理分布影響性能,在PoP緩存內(nèi)容可提升性能并帶來安全收益。“最后一公里連接”問題值得關(guān)注,邊緣計算改變了通信模式,移動應用也有優(yōu)化空間。
自動化是關(guān)鍵戰(zhàn)略元素,在流水線各階段實施全面自動化可帶來巨大收益,涵蓋部署、基礎(chǔ)設(shè)施供應、環(huán)境配置、健康檢查和流量管理。創(chuàng)建“帶有傾向性的”架構(gòu)模板可幫助團隊構(gòu)建自動繼承架構(gòu)標準的應用,應用通過基于清單定義進行自動化部署。基礎(chǔ)設(shè)施“重鋪”是高效實踐,定期自動重建環(huán)境可消除配置漂移,增強安全性,更新補丁。自動化故障轉(zhuǎn)移需考慮活躍會話,防止故障轉(zhuǎn)移循環(huán),根據(jù)場景和延遲容忍度決定處理方式。
可觀測性要求對觀測到的事件進行自動化響應。云環(huán)境產(chǎn)生大量事件,自動化通過無服務器函數(shù)與可觀測性集成,根據(jù)預設(shè)條件切換執(zhí)行區(qū)域。數(shù)據(jù)庫問題、維護活動等可觸發(fā)相應函數(shù)。健康檢查需在多個層級進行,應用內(nèi)健康檢查向上傳播至各層級,通過簡單布爾指標實現(xiàn)自動化健康評估,支持快速決策。在不同場景中,根據(jù)告警信息決定流量重定向或服務降級等決策。
安全需采用零信任模型的分層實現(xiàn),每一層獨立運作,假定其他層可能失效。客戶端設(shè)備、邊界安全、內(nèi)部網(wǎng)絡(luò)、容器安全、應用安全和數(shù)據(jù)安全各層都要采取相應措施,各層之間互相強化。
文化轉(zhuǎn)型是成功遷移的基礎(chǔ),云運維與企業(yè)自建系統(tǒng)差異大,需持續(xù)適應。 “誰構(gòu)建、誰擁有、誰部署”的所有權(quán)模型將責任賦予應用團隊,自動化可確保一致性。公司開發(fā)的TrueCD CI/CD方法論類似航空業(yè)飛行前安全檢查。從企業(yè)自建環(huán)境向云遷移會影響應用架構(gòu),抽象層可減少影響,Dapr是支持多云架構(gòu)的開源框架。大型應用遷移需逐步進行,先在內(nèi)部用戶群體中驗證系統(tǒng),拆分系統(tǒng)為離散應用集,逐步遷移客戶群體。
這些策略的實施帶來了顯著成果,成本顯著降低,性能指標大幅提升,平臺在對比分析中名列前茅。在實施策略時,需權(quán)衡成本與性能,不損害其他需求。多區(qū)域架構(gòu)中要評估緩存復制策略,降低運維復雜性,減少人工干預,自動化是關(guān)鍵。控制故障爆炸半徑至關(guān)重要,建立面向行動的可觀測性并與自動化操作緊密關(guān)聯(lián)。所有決策應以客戶為中心,確保關(guān)鍵組件在流量激增時保持運行,核心系統(tǒng)維持響應能力,客戶獲得即時響應。






















