
前言
伴隨著產(chǎn)業(yè)升級(jí),我國(guó)制造業(yè)也將逐步由“中國(guó)制造”轉(zhuǎn)向“中國(guó)智造”。毋庸置疑,“智能制造”將成為未來(lái)制造業(yè)發(fā)展的必然趨勢(shì)。處在中國(guó)高端制造業(yè)“走出去”的第四次浪潮中,面對(duì)世界級(jí)的競(jìng)爭(zhēng),全面的技術(shù)升級(jí)對(duì)制造業(yè)的意義不言自明,這其中就包含制造業(yè)對(duì)網(wǎng)絡(luò)前沿技術(shù)的探索,例如對(duì)AIOps技術(shù)的運(yùn)用。
本次記者采訪了智維數(shù)據(jù)技術(shù)總監(jiān)何仰文,請(qǐng)他通過(guò)一個(gè)制造業(yè)智能運(yùn)維探索的實(shí)例,分享這家國(guó)際化企業(yè)是如何通過(guò)流量分析,實(shí)現(xiàn)故障高效處理,保障網(wǎng)絡(luò)平穩(wěn)、暢通,支撐生產(chǎn)及業(yè)務(wù)高速運(yùn)轉(zhuǎn),并實(shí)現(xiàn)帶寬容量精細(xì)化管理,合理控制網(wǎng)絡(luò)費(fèi)用的。
1.快速故障定位,保障網(wǎng)絡(luò)24小時(shí)持續(xù)平穩(wěn)是國(guó)際化制造企業(yè)運(yùn)行的基礎(chǔ)
記者:能不能介紹下案例的背景以及客戶遇到的問(wèn)題?
何仰文:智維數(shù)據(jù)最早是在2020年收到來(lái)自O(shè)PPO網(wǎng)絡(luò)運(yùn)維部的項(xiàng)目需求,該部門需要保障數(shù)據(jù)中心與分支機(jī)構(gòu)、生產(chǎn)工廠間的網(wǎng)絡(luò)平穩(wěn)運(yùn)行,包含數(shù)千條鏈路以及幾個(gè)大型的數(shù)據(jù)中心,因此運(yùn)維團(tuán)隊(duì)日常的工作負(fù)荷較大。另外,OPPO擁有數(shù)量眾多的業(yè)務(wù)系統(tǒng),但尚未建立統(tǒng)一的可視化管理平臺(tái),因此運(yùn)維人員對(duì)業(yè)務(wù)系統(tǒng)運(yùn)行狀態(tài)難以清晰掌握。而故障分析依賴人工下包分析,效率較低。為解決以上問(wèn)題,OPPO運(yùn)維團(tuán)隊(duì)開(kāi)始考慮建設(shè)流量監(jiān)控平臺(tái),希望能實(shí)現(xiàn)鏈路管理和應(yīng)用性能的可視化分析。
記者:對(duì)于OPPO來(lái)說(shuō),或者是新一代的智能制造業(yè)來(lái)說(shuō),網(wǎng)絡(luò)運(yùn)維為什么重要?
何仰文:對(duì)于一家超大型智能制造國(guó)際企業(yè),生產(chǎn)管理流程是全自動(dòng)的,整個(gè)流程包含很多套復(fù)雜程序,比如制造核心Mes系統(tǒng)等。OPPO有數(shù)量龐大的生產(chǎn)線,一旦系統(tǒng)出錯(cuò)或者參數(shù)出錯(cuò),以貼片機(jī)為例,中斷半個(gè)小時(shí)整個(gè)生產(chǎn)流水線的損失會(huì)達(dá)到百萬(wàn)級(jí)別。

OPPO的主板生產(chǎn)設(shè)備貼片機(jī)
而作為IT基礎(chǔ)設(shè)施,網(wǎng)絡(luò)在其中起著連接其他各個(gè)系統(tǒng)及應(yīng)用的作用,特別對(duì)于做全球市場(chǎng)的企業(yè)來(lái)說(shuō),現(xiàn)在受疫情影響以及國(guó)際局勢(shì)的變化,業(yè)務(wù)端敏感度是空前的,各分支機(jī)構(gòu)與總部之間需要時(shí)刻保持互聯(lián)互通,一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的故障對(duì)整體業(yè)務(wù)的影響有時(shí)可能也是很大的,因此保障網(wǎng)絡(luò)24小時(shí)穩(wěn)定持續(xù)非常重要。
2.不止是“能用”而是“好用”提升人效的基礎(chǔ)是人人都用得起來(lái)的工具
記者:對(duì)于OPPO來(lái)說(shuō),之前在網(wǎng)絡(luò)運(yùn)維方面有哪些難點(diǎn)?
何仰文:當(dāng)業(yè)務(wù)用戶遇到系統(tǒng)打不開(kāi)或者進(jìn)度慢,第一反應(yīng)都是網(wǎng)絡(luò)問(wèn)題。使用傳統(tǒng)網(wǎng)絡(luò)監(jiān)控只能知道A點(diǎn)到B點(diǎn)是通的,具體通訊質(zhì)量如何,鏈路上運(yùn)行的業(yè)務(wù)應(yīng)用質(zhì)量如何是無(wú)法感知的,指標(biāo)不能量化,難以形成判斷。另外是故障定位問(wèn)題,網(wǎng)絡(luò)問(wèn)題還是應(yīng)用問(wèn)題,以前只能通過(guò)人工抓包來(lái)分析,效率較低。
記者:OPPO之前抓包分析的流程和問(wèn)題是怎樣的?
何仰文:因?yàn)槭褂米グぞ吆茈y進(jìn)行統(tǒng)計(jì)分析,一次只能分析一個(gè)會(huì)話,確定當(dāng)前這個(gè)會(huì)話是否有問(wèn)題。對(duì)于多個(gè)會(huì)話的指標(biāo)統(tǒng)計(jì),是做不到的。另外即使單獨(dú)看每個(gè)數(shù)據(jù)包的交互,這對(duì)工程師的技術(shù)要求也很高。而網(wǎng)絡(luò)通訊過(guò)程中經(jīng)常會(huì)出現(xiàn)一些網(wǎng)絡(luò)重傳之類,所以具體由于哪些錯(cuò)誤導(dǎo)致的,利用抓包工具無(wú)法直觀找到問(wèn)題所在。因此,無(wú)論在分析效率還是準(zhǔn)確性層面,網(wǎng)絡(luò)工程師們都在考慮用新的技術(shù)工具,最后是采用了我們的產(chǎn)品——智維數(shù)據(jù)nCompass流量分析平臺(tái)來(lái)解決這些問(wèn)題。
記者:為何OPPO選了nCompass,nCompass是如何解決以上運(yùn)維問(wèn)題的?

使用nCompass流量監(jiān)控平臺(tái)查看應(yīng)用性能情況快速定位故障所在
何仰文:可以整合多源數(shù)據(jù)快速定位問(wèn)題、分析靈活,不需要復(fù)雜培訓(xùn)能快速上手,可視化程度高,這可能是客戶會(huì)選擇我們的原因。
比如剛才提到應(yīng)用慢的問(wèn)題,就需要對(duì)一些重點(diǎn)應(yīng)用做持續(xù)監(jiān)控,之前網(wǎng)絡(luò)部經(jīng)常遇到業(yè)務(wù)端用戶投訴應(yīng)用很慢,現(xiàn)在遇到類似問(wèn)題,可以用nCompass查看,如果是應(yīng)用自身響應(yīng)慢,可以很快協(xié)助應(yīng)用組去定位。因?yàn)榫W(wǎng)絡(luò)和應(yīng)用的中間環(huán)節(jié)太多了,所以故障快速定位對(duì)他們是非常最重要的。以前他們?nèi)斯ぷグ?,可能一天大概摸到個(gè)頭緒,現(xiàn)在通過(guò)nCompass,花個(gè)十多分鐘,就可以確定故障的方向。
3.用流量+可視化搞定兩大核心問(wèn)題為運(yùn)維團(tuán)隊(duì)實(shí)現(xiàn)降本增效
記者:nCompass幫助OPPO運(yùn)維團(tuán)隊(duì)解決了哪些常見(jiàn)的故障,請(qǐng)介紹具體場(chǎng)景?
場(chǎng)景1 提效:快速故障定位,故障處置效率數(shù)十倍提升
何仰文:比如廣域網(wǎng)鏈路監(jiān)控,當(dāng)鏈路滿了,nCompass系統(tǒng)會(huì)發(fā)出告警,運(yùn)維人員可以分析鏈路的組成是否合理,是不是存在一些大流量,流量的占用是否正常。另外出現(xiàn)應(yīng)用故障,比如業(yè)務(wù)用戶反映應(yīng)用卡或者慢,也可以通過(guò)流量指標(biāo)分析到底是應(yīng)用的問(wèn)題還是網(wǎng)絡(luò)的問(wèn)題,為運(yùn)維人員后續(xù)排障找到明確方向。

Flow鏈路分析視圖當(dāng)出現(xiàn)鏈路帶寬占滿,可以快速識(shí)別并告警(demo展示)
比如,前幾天我們?nèi)グ菰L客戶的時(shí)候,正好有業(yè)務(wù)部門向運(yùn)維團(tuán)隊(duì)反饋說(shuō)有一個(gè)應(yīng)用從上周開(kāi)始就比較慢了。此時(shí)通過(guò)nCompass看到應(yīng)用側(cè)的響應(yīng)時(shí)間都比較長(zhǎng),有的都到了五六秒,那么這種就是有問(wèn)題,可能的原因是服務(wù)器響應(yīng)問(wèn)題,應(yīng)用占用的IO,或者CPU、內(nèi)存比較高。運(yùn)維工程師于是反饋給應(yīng)用組去查,發(fā)現(xiàn)確實(shí)是由于應(yīng)用占用的內(nèi)存高導(dǎo)致應(yīng)用響應(yīng)不過(guò)來(lái),那么就可以快速地將這個(gè)問(wèn)題解決。



對(duì)重點(diǎn)應(yīng)用進(jìn)行實(shí)時(shí)監(jiān)測(cè) 呈現(xiàn)各細(xì)分應(yīng)用的性能與流量情況(demo展示)
同樣的故障客戶之前可能要排查很多方向,因?yàn)樗麄儾桓掖_定到底是網(wǎng)絡(luò)問(wèn)題,或者交換機(jī)有問(wèn)題之類的?,F(xiàn)在就可以第一時(shí)間把一些無(wú)關(guān)方向給排除掉。
還有就是應(yīng)用之間的調(diào)用問(wèn)題也會(huì)影響應(yīng)用的性能。比如存在一些跨區(qū)域的異常調(diào)用,可以通過(guò)南北向流量數(shù)據(jù)去看應(yīng)用跟應(yīng)用之間的調(diào)用是否合理,是否存在同一個(gè)應(yīng)用跨機(jī)房的調(diào)用,就像前端的IP去訪問(wèn)后端的存儲(chǔ),或者使用后端數(shù)據(jù)庫(kù)的時(shí)候跨機(jī)了等等這些影響應(yīng)用的性能的問(wèn)題。
場(chǎng)景2 節(jié)流:鏈路精細(xì)化管理與容量規(guī)劃
記者:還有幫OPPO梳理其他場(chǎng)景嗎?
何仰文:還有一個(gè)很重要的場(chǎng)景是廣域網(wǎng)鏈路的精細(xì)化管理以及容量規(guī)劃。OPPO因?yàn)槠鋰?guó)際化業(yè)務(wù)的特性,因此對(duì)Netflow的功能很看重,因?yàn)樗麄內(nèi)虻姆种Ч?jié)點(diǎn)特別多,國(guó)際廣域網(wǎng)鏈路又比較貴,一條國(guó)際鏈路一年就上百萬(wàn)了。當(dāng)然這個(gè)鏈路還只是存儲(chǔ)的鏈路。為了避免這些帶寬浪費(fèi),運(yùn)維人員需要知道它具體的流量構(gòu)成,才能做適當(dāng)?shù)膬?yōu)化。

Flow鏈路-應(yīng)用的流量分析視圖展示每條鏈路中各應(yīng)用的流量占比(demo展示)
比如廣域網(wǎng)負(fù)責(zé)人發(fā)現(xiàn)某條鏈路滿了,通過(guò)nCompass查看發(fā)現(xiàn)有一條異常的流量特別大,再下鉆發(fā)現(xiàn)是某個(gè)應(yīng)用從A城市節(jié)點(diǎn)往B城市節(jié)點(diǎn)獲取版本,而正常情況下應(yīng)該是在A點(diǎn)本地獲取的,這種異常就會(huì)導(dǎo)致整條鏈路都被占滿了?,F(xiàn)在他們發(fā)現(xiàn)了這個(gè)問(wèn)題,就可以讓A點(diǎn)停止版本的異地拉取,改成在本地操作。
再比如一些分支機(jī)構(gòu)或部門表示應(yīng)用升級(jí)或應(yīng)用上線要做帶寬擴(kuò)容,那么他們可以去實(shí)際查看這條鏈路的利用率,看它組成的數(shù)據(jù)細(xì)節(jié),處理掉不合理的流量,那么在預(yù)算這塊就能有更好的控制,而對(duì)于真正需要擴(kuò)容的需求,他們也能提供實(shí)際的數(shù)據(jù)支持。
4.深入挖掘數(shù)據(jù)價(jià)值,賦能網(wǎng)絡(luò)與業(yè)務(wù)多部門
記者:未來(lái)對(duì)于運(yùn)維數(shù)據(jù)的精細(xì)化管理,或者數(shù)據(jù)挖掘這個(gè)方向,nCompass還可以為OPPO做些什么?
何仰文:前面我們幫客戶梳理了幾個(gè)場(chǎng)景,在我們最近去回訪的時(shí)候,客戶表示效果還是不錯(cuò)的,不過(guò)也提出了新的需求:首先是計(jì)費(fèi)。未來(lái)廣域網(wǎng)鏈路流量客戶希望根據(jù)這些部門的使用比例來(lái)做鏈路分配,將流量與預(yù)算結(jié)合起來(lái)做更好的費(fèi)用管控。以后各個(gè)部門按使用情況會(huì)定期收到費(fèi)用賬單,增強(qiáng)大家的成本意識(shí)。

基于Flow鏈路-區(qū)域流量分析視圖可清晰掌握Flow鏈路中各區(qū)域的流量占比情況(demo展示)
另外OPPO的出口鏈路有一個(gè)普遍的問(wèn)題,就是IP互聯(lián)互認(rèn)的流量占用特別大。如果用現(xiàn)有的方式把服務(wù)流量全部拿來(lái)分析,費(fèi)用較高,未來(lái)希望通過(guò)nCompass的Flow分析模塊,合理選擇需要分析的流量,降低數(shù)據(jù)使用的成本。
還有就是希望在智能告警之外,流量分析的數(shù)據(jù)精度能更高,因?yàn)镺PPO的業(yè)務(wù),特別是對(duì)于這種IT類的應(yīng)用,常常缺乏固定的模型,那么對(duì)于變化場(chǎng)景如何利用nCompass在智能化上的能力,實(shí)現(xiàn)對(duì)異常的感知和預(yù)測(cè)能力,是他們未來(lái)想探索的方向。
現(xiàn)在nCompass的產(chǎn)品線更加豐富了,以上這些需求其實(shí)都可以通過(guò)我們現(xiàn)有的產(chǎn)品組合去實(shí)現(xiàn)。在充分挖掘數(shù)據(jù)的基礎(chǔ)上,結(jié)合我們的產(chǎn)品,未來(lái)希望能為制造業(yè)的網(wǎng)絡(luò)及業(yè)務(wù)用戶都帶來(lái)明確的價(jià)值。