1 引言
人工免疫系統(tǒng)是在生物免疫系統(tǒng)理論的基礎(chǔ)上發(fā)展起來的,是利用生物免疫原理和思想建立的人工模型,具有多樣性、分布性、動態(tài)性、魯棒性等特點。人工免疫系統(tǒng)可以解決模式識別、數(shù)據(jù)挖掘、故障診斷、信息安全、優(yōu)化計算等領(lǐng)域的諸多問題,已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)、模糊邏輯和演化計算之后的熱點研究內(nèi)容[1-3]。
人工免疫網(wǎng)絡(luò)(aiNet)是利用免疫理論中的克隆選擇、親和力成熟和免疫網(wǎng)絡(luò)理論等構(gòu)建的網(wǎng)絡(luò)模型。作為人工免疫系統(tǒng)范疇內(nèi)的重要應(yīng)用模型,它具有噪聲耐受、無教師學(xué)習(xí)、自組織等優(yōu)點,受到了國內(nèi)外學(xué)者的廣泛關(guān)注,研究成果涉及數(shù)據(jù)處理、優(yōu)化學(xué)習(xí)和故障診斷等領(lǐng)域。
自回歸模型(AR模型)具有線性體系結(jié)構(gòu),和ARMA模型相比,求解方法和實現(xiàn)手段更為系統(tǒng)和有效。AR模型的理論完善、實現(xiàn)簡單、抗干擾能力強,使得它在數(shù)據(jù)分析與系統(tǒng)建模等很多學(xué)科占有重要的地位,廣泛應(yīng)用于特征提取、參數(shù)估計、頻譜估計、系統(tǒng)建模、時間序列分析與預(yù)測等工程技術(shù)領(lǐng)域。
對復(fù)雜系統(tǒng)實施綜合健康管理,需要實時監(jiān)測系統(tǒng)的運行狀況。如果存在運行歷史數(shù)據(jù)和經(jīng)驗信息,則通過比較實時獲取數(shù)據(jù)和歷史經(jīng)驗信息,可以確定復(fù)雜系統(tǒng)的當(dāng)前工作狀態(tài);以此同時,為了避免災(zāi)難性事故發(fā)生,需要根據(jù)系統(tǒng)當(dāng)前工作狀況和歷史信息,預(yù)測系統(tǒng)未來時刻的運行情況,以便在系統(tǒng)出現(xiàn)故障之前采取必要的措施,將經(jīng)濟損失降低到最小程度。
復(fù)雜系統(tǒng)的結(jié)構(gòu)復(fù)雜、子系統(tǒng)數(shù)目多、組件分布廣泛、影響因素多樣,單純地采用傳統(tǒng)方法確定系統(tǒng)運行狀況和預(yù)測未來工作狀態(tài)相對困難。人工智能和演化計算領(lǐng)域的飛速發(fā)展,為解決該問題提供了嶄新的途徑。本文將充分利用人工免疫網(wǎng)絡(luò)的分布性、記憶性和魯棒性的特點,與基于AR模型的預(yù)測方法相結(jié)合,面向復(fù)雜系統(tǒng)綜合健康管理的實際需求,研究基于人工免疫網(wǎng)絡(luò)和AR模型的數(shù)據(jù)聚類與預(yù)測方法,為實施系統(tǒng)綜合健康管理進行有益的探討。
2 人工免疫網(wǎng)絡(luò)
Jerne在1974年首次提出了免疫網(wǎng)絡(luò)理論,并給出抗原和抗體的網(wǎng)絡(luò)識別機制[4]。免疫系統(tǒng)能夠辨別“自我”和“非我”,并通過免疫應(yīng)答機制排除“非我”;免疫系統(tǒng)的初次應(yīng)答保存了抗原的信息,當(dāng)再次遇到相同或者相似的抗原時,會迅速引發(fā)二次應(yīng)答過程,有效地排除“非我”。
在生物免疫理論的基礎(chǔ)上,De Castro和Von Zuben等提出了人工免疫網(wǎng)絡(luò)(aiNet)模型[5],它根據(jù)抗體和抗原之間的親和力來確定保留或者剪除求解邊界和節(jié)點,以獲得人工免疫網(wǎng)絡(luò)結(jié)構(gòu)(即記憶抗體)。作為抗原內(nèi)映像的記憶抗體用于檢驗新的抗原,并決定是否啟動二次免疫應(yīng)答。人工免疫網(wǎng)絡(luò)算法流程如下[3]:
3 AR模型概述
4 基于人工免疫網(wǎng)絡(luò)和AR模型的數(shù)據(jù)聚類和預(yù)測
4.1 聚類和預(yù)測算法結(jié)構(gòu)
面向復(fù)雜系統(tǒng)綜合健康管理的實際需求,充分利用人工免疫網(wǎng)絡(luò)性和自回歸模型的各自優(yōu)勢,實現(xiàn)數(shù)據(jù)的聚類與預(yù)測功能的算法體系結(jié)構(gòu)如圖1所示。
在圖1中,首先對獲取的原始數(shù)據(jù)進行歸一化處理,然后采用人工免疫網(wǎng)絡(luò)對規(guī)范化的數(shù)據(jù)進行有效地聚類,并根據(jù)聚類結(jié)果和復(fù)雜系統(tǒng)的歷史信息,判定運行系統(tǒng)所處的狀態(tài)。與此同時,選擇合適的自回歸模型(AR模型),對獲取數(shù)據(jù)的發(fā)展趨勢進行預(yù)測,并對預(yù)測結(jié)果進行規(guī)范化處理,最后依據(jù)聚類結(jié)果劃分預(yù)測結(jié)果類別,確定系統(tǒng)未來時刻所處的狀態(tài),以此作為是否需要對系統(tǒng)運行采取干預(yù)措施的決策依據(jù)。
圖1數(shù)據(jù)聚類與預(yù)測算法的體系結(jié)構(gòu)
4.2 聚類和預(yù)測算法實現(xiàn)
(1) 歸一化原始數(shù)據(jù):在使用人工免疫網(wǎng)絡(luò)進行數(shù)據(jù)聚類時,為了提高數(shù)據(jù)的利用效率和簡化計算,需要對數(shù)據(jù)進行歸一化處理[8]。本文采用線性規(guī)范方法,將原始數(shù)據(jù)的取值范圍規(guī)范化到[0,1]之內(nèi),實現(xiàn)方法如下
(9)
其中xi 是原始數(shù)據(jù)中第i個數(shù)據(jù), xmin和xmax分別是最小值和最大值, 是歸一化的結(jié)果。
(2) 數(shù)據(jù)的聚類方法:使用人工免疫網(wǎng)絡(luò)進行數(shù)據(jù)聚類時,設(shè)置合理的免疫網(wǎng)絡(luò)參數(shù)非常重要。作為聚類過程最重要的參數(shù),抑制閾值 決定了記憶細(xì)胞特異水平、聚類準(zhǔn)確性和網(wǎng)絡(luò)可塑性。通常 值越大,記憶細(xì)胞矩陣的最終規(guī)模越小。在實現(xiàn)數(shù)據(jù)聚類過程中,可以預(yù)先設(shè)置較小的 值,然后通過改變步長進行微調(diào),直至獲得最好聚類效果為止。為了避免聚類結(jié)果的偶然性,可以將多次聚類結(jié)果的平均值作為最終結(jié)果。
在實現(xiàn)數(shù)據(jù)聚類過程中,采用基于邊界加權(quán)圖的最小生成樹描述和檢測最終的聚類結(jié)構(gòu),包括聚類中心和類間距離?乖ㄟ^人工免疫網(wǎng)絡(luò)后產(chǎn)生記憶細(xì)胞矩陣,在已知類別數(shù)目條件下,利用記憶細(xì)胞網(wǎng)絡(luò)的最小生成樹實現(xiàn)自動歸類并計算類的中心。終止聚類條件包括:1)迭代過程達到預(yù)定次數(shù);2)免疫網(wǎng)絡(luò)達到預(yù)定的細(xì)胞數(shù);3)抗原和記憶細(xì)胞的親和度達到預(yù)定閾值。
(3) 確定AR模型:為了降低噪聲的影響,需要對原始數(shù)據(jù)進行滑動平均降噪,并建立AR模型和實施前向數(shù)據(jù)預(yù)測?梢圆捎迷囁惴ù_定AR模型階數(shù),即選取預(yù)測精度最高模型的階數(shù);可以采用Burg算法估計AR模型參數(shù),實現(xiàn)計算效率和精度的有效折衷;Burg算法建立了前向和后向線性預(yù)測系數(shù)之間的遞推關(guān)系,能夠使預(yù)測誤差的功率之和達到最小[9]。
(4) 評價預(yù)測結(jié)果:AR模型預(yù)測完畢后,需要對預(yù)測結(jié)果進行評價。預(yù)測精度表示為預(yù)測結(jié)果與實際情況的差別程度,可以用誤差指標(biāo)反映預(yù)測精度,通常誤差越大預(yù)測精度越低[10]。計算預(yù)測結(jié)果的標(biāo)準(zhǔn)差公式如下
(10)
其中xi表示預(yù)測結(jié)果的第i個值,表示預(yù)測結(jié)果的估計均值。如果預(yù)測結(jié)果的相對誤差小于3%,則可以認(rèn)為預(yù)測誤差在允許范圍之內(nèi)。
(5) 預(yù)測結(jié)果的分析決策:比較預(yù)測結(jié)果與人工免疫網(wǎng)絡(luò)的聚類結(jié)果,計算預(yù)測結(jié)果偏離聚類中心程度。如果計算偏差小于某個閾值,則表明復(fù)雜系統(tǒng)在未來時刻的工作狀況保持不變;如果計算偏差大于某個閾值,則表明復(fù)雜系統(tǒng)的工作狀況在未來時刻將會發(fā)生改變,應(yīng)該提前除采取某種有效措施,以應(yīng)對可能出現(xiàn)的工作狀況。預(yù)測結(jié)果與聚類中心的比較結(jié)果,可以為實施系統(tǒng)綜合健康管理提供必要的決策依據(jù)。
5 仿真實驗及結(jié)果分析
在仿真實驗中,選擇工程實踐中常用的指數(shù)形式、常數(shù)形式和多項式形式的三種信號作為原始信號,選擇高斯白噪聲作為干擾信號。選用MATLAB 7.1作為仿真實驗平臺,選取第2節(jié)論述的人工免疫算法實現(xiàn)數(shù)據(jù)聚類,選擇第3節(jié)論述的AR模型實現(xiàn)數(shù)據(jù)預(yù)測。
圖2 原始序列圖形
原始含噪聲數(shù)據(jù)的波形如圖2所示,從上至下依次是指數(shù)形式、常數(shù)形式和多項式形式,數(shù)據(jù)有效長度為 ,原始數(shù)據(jù)中疊加的高斯白噪聲符合 分布。在基于人工免疫網(wǎng)絡(luò)的數(shù)據(jù)聚類過程中,線性歸一化的原始數(shù)據(jù)作為抗原輸入人工免疫網(wǎng)絡(luò),設(shè)置抑制閾值 ,最大循環(huán)代數(shù)為 ,記憶細(xì)胞規(guī)模為 ,其中的10次數(shù)據(jù)聚類結(jié)果如表1所示。
表1 人工免疫網(wǎng)絡(luò)的聚類結(jié)果
如果將表1所示的10次實驗均值作為聚類中心,則可以發(fā)現(xiàn),它們大致位于各組數(shù)據(jù)的幾何中心,同時也表明聚類結(jié)果的穩(wěn)定可靠。
采用AR模型對原始數(shù)據(jù)進行預(yù)測時,通過試算法得出指數(shù)形式數(shù)據(jù)的AR模型為5階,常數(shù)形式數(shù)據(jù)的AR模型為6階,多項式形式數(shù)據(jù)的AR模型為11階,預(yù)測誤差如圖3所示。
根據(jù)圖3所示的預(yù)測誤差可以看出,隨著時間的推移,預(yù)測結(jié)果的誤差逐漸增大,并逐漸偏離數(shù)據(jù)中心,其中常數(shù)類型數(shù)據(jù)的預(yù)測誤差最小,多項式類型數(shù)據(jù)的預(yù)測誤差最大。
圖3預(yù)測結(jié)果誤差 (a)指數(shù)形式數(shù)據(jù) (b)常數(shù)形式數(shù)據(jù) (c)多項式形式數(shù)據(jù)
6 結(jié)論
本文面向復(fù)雜系統(tǒng)綜合健康管理對數(shù)據(jù)聚類和數(shù)據(jù)預(yù)測實際需求,充分利用人工免疫網(wǎng)絡(luò)和AR模型的各自優(yōu)勢,提出了基于人工免疫網(wǎng)絡(luò)和AR模型相結(jié)合的數(shù)據(jù)聚類和預(yù)測算法,并針對三種形式的原始數(shù)據(jù)進行了仿真實驗,實驗結(jié)果初步驗證了所提出算法的可行性和有效性。本文提出的算法具有較強的通用性、適應(yīng)性、魯棒性,如何有效地提高聚類精度和預(yù)測準(zhǔn)確性將是繼續(xù)深入研究的內(nèi)容。