5G將開啟產(chǎn)業(yè)互聯(lián)網(wǎng)變革的新篇章,推動5G融合應(yīng)用發(fā)展是業(yè)內(nèi)共識。GTI最新發(fā)布的《5G智能化網(wǎng)絡(luò)白皮書》強(qiáng)調(diào),網(wǎng)絡(luò)智能化是5G網(wǎng)絡(luò)高效高質(zhì)建設(shè)部署和運(yùn)營不可或缺的能力。如何為用戶提供更高質(zhì)量、更有保障的通信服務(wù),成為運(yùn)營商乃至整個社會信息化發(fā)展的重要課題。
5G核心網(wǎng)運(yùn)維的新挑戰(zhàn)
5G核心網(wǎng)(5G Core)是電信運(yùn)營商5G建設(shè)的重要組成部分,采用全新技術(shù),在實現(xiàn)網(wǎng)絡(luò)部署、網(wǎng)絡(luò)功能、新業(yè)務(wù)開展的同時,監(jiān)控保障也面臨全新挑戰(zhàn)。在4G核心網(wǎng)(EPC,Evolved Packet Core)中,網(wǎng)元由專有設(shè)備承載,硬件屬性較強(qiáng)。而在5G核心網(wǎng)環(huán)境中采用基于服務(wù)架構(gòu)(SBA,Service Based Architecture),融入云原生、微服務(wù)等設(shè)計思想, 以軟件化,模塊化、服務(wù)化的方式構(gòu)建核心網(wǎng)。對于全新核心網(wǎng)的運(yùn)維保障,面臨如下挑戰(zhàn):
網(wǎng)絡(luò)功能解耦使監(jiān)控對象數(shù)量激增
依據(jù)3GPP定義,5G核心網(wǎng)的各網(wǎng)絡(luò)功能(NF,Network Function)在功能級別上解耦,拆分出若干個獨(dú)立的網(wǎng)絡(luò)功能服務(wù)(NFS,Network Function Service),這些網(wǎng)絡(luò)功能獨(dú)立運(yùn)行,提供標(biāo)準(zhǔn)化服務(wù)接口,通過相互調(diào)用訪問實現(xiàn)網(wǎng)絡(luò)功能。在5G核心網(wǎng)方案中,虛擬化、云原生技術(shù)的融入,使通用服務(wù)器取代專有硬件設(shè)備,與此同時虛擬網(wǎng)元,虛擬機(jī)、容器POD的數(shù)量飛速增長,每個工作負(fù)載同時提供多個IPv4、IPv6工作平面。
相較4G EPC,由于眾多方面演進(jìn)疊加在一起,在5G核心網(wǎng)SBA架構(gòu)中虛擬化后的NFS實例數(shù)量以2個以上的數(shù)量級增長,需要監(jiān)控的對象數(shù)量巨大是5G核心網(wǎng)保障側(cè)第一個挑戰(zhàn)。
服務(wù)自動化增加了網(wǎng)絡(luò)追蹤的難度
通過網(wǎng)絡(luò)功能倉儲(NRF,NF Repository Function),5G 核心網(wǎng)的各類網(wǎng)絡(luò)功能服務(wù)得以自動化管理,實現(xiàn)服務(wù)的自動發(fā)現(xiàn)以及注冊、更新、狀態(tài)檢測等,避免服務(wù)訪問中進(jìn)行大量手動配置工作;集中控制面可以將大量跨區(qū)域的信令交互變成數(shù)據(jù)中心內(nèi)部流量,優(yōu)化信令處理時延;根據(jù)業(yè)務(wù)應(yīng)用的變化,按需快速擴(kuò)縮網(wǎng)絡(luò)功能和服務(wù),提高網(wǎng)絡(luò)的業(yè)務(wù)響應(yīng)速度。自動化管理在生產(chǎn)側(cè)提升了管理效率,同時在核心網(wǎng)保障側(cè)增加了動態(tài)性強(qiáng)、難以跟蹤的新挑戰(zhàn)。
路徑優(yōu)化與交互解耦抬高了監(jiān)控復(fù)雜度
4G核心網(wǎng)的網(wǎng)元之間的通信遵循請求者和響應(yīng)者的點(diǎn)對點(diǎn)模式,是一種相互耦合的傳統(tǒng)模式。在 5G 核心網(wǎng)服務(wù)化架構(gòu)下,各網(wǎng)絡(luò)功能服務(wù)之間可以根據(jù)需求按需通信。5G 核心網(wǎng)架構(gòu)下的網(wǎng)絡(luò)功能服務(wù)間通信機(jī)制進(jìn)一步解耦為生產(chǎn)者和消費(fèi)者模式,具備靈活可編排、解耦、開放等優(yōu)點(diǎn),是 5G 時代迅速滿足垂直行業(yè)需求的一個重要基礎(chǔ)能力。各網(wǎng)絡(luò)功能在實際應(yīng)用過程中,避免了不必要的網(wǎng)絡(luò)中轉(zhuǎn),但服務(wù)間的調(diào)用依賴,訪問追蹤,性能分析,故障定位等也成為運(yùn)維保障側(cè)的新挑戰(zhàn)。
DeepFlow 5G核心網(wǎng)網(wǎng)絡(luò)功能服務(wù)監(jiān)控方案實踐
DeepFlow是一款面向5G核心網(wǎng),基于對服務(wù)NFS間的通信訪問流量進(jìn)行獲取分析,以保障核心網(wǎng)穩(wěn)定運(yùn)行的軟件產(chǎn)品。在整體方案中,可按處理邏輯分為流量獲取、數(shù)據(jù)分發(fā)傳輸、診斷分析三大部分,通過流量采集預(yù)處理抽象層,提供流量采集及預(yù)處理的北向管理接口,使整個監(jiān)控平臺具備可擴(kuò)展的基礎(chǔ)數(shù)據(jù)獲取能力。
通常5G核心網(wǎng)環(huán)境中,主要涉及到KVM虛擬機(jī)與容器POD的網(wǎng)絡(luò)流量獲取。DeepFlow 5G核心網(wǎng)網(wǎng)絡(luò)功能服務(wù)監(jiān)控方案支持IPv4、IPv6協(xié)議環(huán)境,緊密結(jié)合HTTP v2協(xié)議,實現(xiàn)服務(wù)間關(guān)聯(lián)依賴監(jiān)控。本文基于運(yùn)營商實際5GC運(yùn)行環(huán)境,化繁為簡并以Free5GC環(huán)境為基礎(chǔ)進(jìn)行介紹。
What is free5GC?
The free5GC is an open-source project for 5th generation (5G) mobile core networks. The ultimate goal of this project is to implement the 5G core network (5GC) defined in 3GPP Release 15 (R15) and beyond. -- www.free5gc.org
Free5GC是5G核心網(wǎng)開源軟件項目,總體架構(gòu)基于3GPP標(biāo)準(zhǔn)、遵循SBA框架,采用虛擬化方式實現(xiàn)網(wǎng)絡(luò)功能,可運(yùn)行5G核心網(wǎng)的標(biāo)準(zhǔn)服務(wù),并且可以模擬相應(yīng)工作流程。在實際5G環(huán)境中,多數(shù)廠商已經(jīng)采用容器技術(shù)承載網(wǎng)絡(luò)功能服務(wù)。在本文環(huán)節(jié)中,采用虛擬機(jī)運(yùn)行容器,創(chuàng)建Kubernetes集群, 搭建5G核心網(wǎng)驗證環(huán)境,使能各網(wǎng)絡(luò)功能。通過云杉網(wǎng)絡(luò)的DeepFlow平臺實現(xiàn)對各網(wǎng)絡(luò)服務(wù)的監(jiān)控保障。實踐過程中部署的組件包括控制器、采集器以及數(shù)據(jù)節(jié)點(diǎn)。
圖:5G核心網(wǎng)監(jiān)控方案
由大到小追蹤網(wǎng)絡(luò)服務(wù)
在5G核心網(wǎng)的監(jiān)控實踐中,由大到小,逐級有序地展示服務(wù)運(yùn)行狀態(tài)及關(guān)聯(lián)關(guān)系。通常根據(jù)工作流程分為三大范圍,較大范圍以數(shù)據(jù)中心所屬區(qū)域或資源池劃分,其次為網(wǎng)絡(luò)功能或服務(wù)類型,比如AMF、UDM、SMF等,最后將集中在IT單元,比如容器POD、宿主機(jī)、IP等。DeepFlow平臺按照三類范圍由大到小的操作劃分,為核心網(wǎng)所涉及到的復(fù)雜網(wǎng)絡(luò)提供完整的、逐級的監(jiān)控跟蹤。下圖呈現(xiàn)的是各類型網(wǎng)絡(luò)功能服務(wù)運(yùn)行及調(diào)用關(guān)系全景視圖,將服務(wù)接口(SBI,service-based interface)中的網(wǎng)絡(luò)各功能間的調(diào)用通信,以及性能指標(biāo)進(jìn)行自動繪制并呈現(xiàn)。
圖:功能服務(wù)全景圖
實踐過程中,關(guān)注服務(wù)間重點(diǎn)指標(biāo),包括網(wǎng)絡(luò)層(吞吐、載荷),傳輸層(并發(fā)連接、TCP建連時延、TCP系統(tǒng)時延,TCP重傳、建連失。⿷(yīng)用層(HTTP請求、HTTP時延、HTTP異常),繪制訪問調(diào)用關(guān)系全景視圖后,在知識圖譜功能支持下,可以迅速關(guān)聯(lián)列舉相應(yīng)的知識維度。
分鐘級定位異常邊界范圍
5G核心網(wǎng)中存在大量的、復(fù)雜的NFS間服務(wù)調(diào)用,具備有效的調(diào)用性能跟蹤能力尤為重要。
圖:服務(wù)間訪問示例
如上圖所示,一個簡單的邏輯調(diào)用,AMF(Access and Mobility Management Function)中的NFS調(diào)用UDM(Unified Data Management)中的NFS獲取用戶信息,這個過程中,并不是像傳統(tǒng)環(huán)境中直觀簡單。在5G現(xiàn)網(wǎng)環(huán)境中,普遍涉及宿主機(jī)、虛擬機(jī)、容器的網(wǎng)絡(luò)虛擬化實現(xiàn),以全棧分段來梳理訪問調(diào)用,是應(yīng)對新環(huán)境運(yùn)維排障挑戰(zhàn)所必須具備的。以全棧視角,展開以上調(diào)用,可以剖析NFS發(fā)起調(diào)用所經(jīng)過的POD接口、虛擬機(jī)接口、宿主機(jī)接口乃至網(wǎng)關(guān)等鏈路。
圖:服務(wù)調(diào)用全棧跟蹤示意圖
全棧跟蹤針對云中服務(wù)間的調(diào)用訪問,將虛擬化所實現(xiàn)的邏輯通信進(jìn)行逐步展開,清晰便捷展示每段的網(wǎng)絡(luò)狀態(tài),性能,結(jié)合知識圖譜及豐富的指標(biāo)數(shù)據(jù),快速定位性能異常的問題范圍邊界。以上所述訪問為例,如果排查調(diào)用延時故障,確定NFS調(diào)用服務(wù)雙端后,展開全棧跟蹤,直接定位延時所在的接口。如全棧跟蹤示例圖中,清晰展示出服務(wù)AMF服務(wù)實例至UDM服務(wù)實例兩端訪問延時瓶頸在UDM功能側(cè),且聚焦在其運(yùn)行所屬虛擬機(jī)的虛擬網(wǎng)絡(luò)接口處。而排除UDM服務(wù)實例的POD網(wǎng)絡(luò)接口及AMF所涵蓋的虛擬機(jī)、POD等眾多接口路徑。
圖:全棧跟蹤示例
在沒有DeepFlow全棧跟蹤工具的情況下,排查服務(wù)訪問調(diào)用的性能將是一個頭緒紛亂、復(fù)雜繁瑣且冗長的過程,同時對于一線運(yùn)維人員要求所掌握的技術(shù)棧相對較多、要求綜合能力強(qiáng),很可能耽誤寶貴的運(yùn)維窗口時間。
總結(jié)
以上Free5GC示例運(yùn)行在實驗室環(huán)境,模擬運(yùn)行了相應(yīng)的測試用例,實際生產(chǎn)場景較實驗室更加環(huán)境復(fù)雜且規(guī)模巨大,勢必對運(yùn)維保障提出更高要求。經(jīng)過實際環(huán)境測試驗證,DeepFlow平臺也確實能為5G核心網(wǎng)填補(bǔ)監(jiān)控保障空白。
DeepFlow是一款面向5G核心網(wǎng),應(yīng)對網(wǎng)絡(luò)功能服務(wù)(NFS)分拆解耦后的新挑戰(zhàn),進(jìn)行流量采集獲取、分發(fā)、可視化與監(jiān)控保障的產(chǎn)品。幫助5G核心網(wǎng)在基于服務(wù)架構(gòu)中統(tǒng)一采集服務(wù)間的網(wǎng)絡(luò)流量,實現(xiàn)對訪問調(diào)用的全面性能監(jiān)控,并提供容器化后的全棧路徑跟蹤,補(bǔ)齊5G核心網(wǎng)服務(wù)監(jiān)控空白,應(yīng)對云原生特點(diǎn),緊密結(jié)合5G服務(wù),解決5G核心網(wǎng)生產(chǎn)中遇到的監(jiān)控、運(yùn)維、保障等難題。