導(dǎo)讀:近紅外(NIR)光譜分析是融合樣本、變量和模型三個多維空間的建模體系。它具有直接快速的分析優(yōu)勢,同時,也對方法學(xué)提出了挑戰(zhàn)。光譜預(yù)處理是一項基本技能,在信息提取、去噪,模型維護及傳遞中扮演重要角色。由于對象、條件和測量方式的多樣化,預(yù)處理模式通常需要個性化優(yōu)選。Norris導(dǎo)數(shù)濾波(NDF)包含導(dǎo)數(shù)階數(shù)、平滑點數(shù)和差分間隔三個可變參數(shù),是多模式的算法群。功能各異的參數(shù)融合,可提升近紅外光譜的柔性生命力,滿足多樣性光譜預(yù)處理的個性化需求。本文以近紅外玉米粗蛋白分析為例,分享對Norris導(dǎo)數(shù)濾波的理解。在材料制作前期,驚聞Karl H. Norris博士病逝!謹(jǐn)以此文悼念Dr. Karl H. Norris!
暨南大學(xué)光電工程系 潘濤教授
引 言
眾所周知,近紅外(NIR)光譜是典型的多維信息數(shù)據(jù)。近紅外光譜分析是融合樣本、變量和模型三個多維空間的建模體系,化學(xué)計量學(xué)是核心技術(shù)。相對于其他分析手段,近紅外光譜具有快速簡便的優(yōu)勢,它可以不進行化學(xué)或物理的前處理,直接進行測量。例如,采用漫反射法直接測量固體樣品(如粉末,顆粒,纖維等)、透射法直接測量多種組分的復(fù)雜液體樣品(如血液,牛奶,酒類等)。同時,它也對方法學(xué)提出了挑戰(zhàn)。例如,需要處理光譜基線漂移和傾斜等光譜擾動。光譜預(yù)處理是非常必要的,但由于樣品和測量方法的多樣性,預(yù)處理模式通常需要個性化優(yōu)選。
1. 幾類常見光譜預(yù)處理方法
標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV)是常用的光譜預(yù)處理方法。它在每一條光譜內(nèi)進行橫向標(biāo)準(zhǔn)化處理,提升光譜之間的差異度,提高模型穩(wěn)健性和預(yù)測能力[1, 2]。用于消除固體顆粒大小、表面散射以及光程變化對NIR漫反射光譜的影響[3]。最近,我們將SNV方法應(yīng)用于水稻種子鑒別、種子純度定量的近紅外分析[4, 5]。
多元散射校正(multiplicative scatter correction, MSC)是另一種常用的光譜預(yù)處理方法[6~9]。它與SNV基本相同,主要是消除顆粒分布不均勻及顆粒大小產(chǎn)生的散射影響,在固體漫反射和漿狀物透(反)射光譜中應(yīng)用較為廣泛[3]。MSC假設(shè)樣品光譜與平均光譜整體線性相關(guān),并以全譜區(qū)為窗口來校正所有波長的吸光度。然而,在寬譜段的情形,難以對局部相關(guān)性差的波長實現(xiàn)滿意的校正效果,這會影響光譜的整體預(yù)測能力。
文獻[10]提出的分段多元散射校正(piecewise multiplicative scatter correction, PMSC)是一種分段線性校正方法。PMSC方法允許可變的校正窗口(p+1+q),從算法上覆蓋MSC。校正窗口參數(shù)的優(yōu)化是必須的[11],然而,受限于當(dāng)時的計算機水平,相應(yīng)的參數(shù)優(yōu)化平臺尚未建立,影響了PMSC方法的應(yīng)用。最近,本團隊提出移動窗口相關(guān)系數(shù)譜,用于描述光譜之間的局部相關(guān)性,構(gòu)建了基于PLS回歸的PMSC參數(shù)優(yōu)化平臺,取得了顯著優(yōu)于MSC的預(yù)測效果,應(yīng)用于水稻種子純度、土壤有機質(zhì)的近紅外分析[12]。
上述基礎(chǔ)性的光譜預(yù)處理方法,通常需要和平滑、求導(dǎo)法進行聯(lián)用。平滑用于消除弱噪聲而保留光譜輪廓,一階導(dǎo)數(shù)用于校正光譜的基線漂移(additive baseline),二階導(dǎo)數(shù)用于校正光譜的線性基線漂移(linear baseline)等噪聲[11]。
Savitzky-Golay平滑(SG smoothing)是一種十分優(yōu)雅的產(chǎn)生導(dǎo)數(shù)光譜的預(yù)處理方法[13]。它采用平滑窗口波長數(shù)(2m + 1)、多項式次數(shù)(n)和導(dǎo)數(shù)階數(shù)(s)作為參數(shù)。在平滑窗口內(nèi),對中心波長的光譜數(shù)據(jù)進行多項式校正,再通過移動窗口方式實現(xiàn)全譜的校正。不同的參數(shù)組合對應(yīng)不同的平滑模式,計算公式也各不相同。功能各異的參數(shù)的融合,提升了近紅外光譜的柔性生命力,可滿足多樣性光譜預(yù)處理的個性化需求。本團隊構(gòu)建了三維參數(shù)(m,n,s)遍歷的偏最小二乘(PLS)算法平臺,實現(xiàn)了SG平滑模式的大范圍參數(shù)優(yōu)化,應(yīng)用于近紅外光譜的血糖分析[14]、土壤檢測[15,16]、轉(zhuǎn)基因甘蔗育種篩查[17]、糖化血紅蛋白分析[18]、地中海貧血篩查[19,20]、血粘度測定[21,22]等方面。
Norris導(dǎo)數(shù)濾波(Norris derivative filter, NDF)是另一個著名的光譜預(yù)處理方法。它由被譽為“近紅外光譜之父”的Karl H. Norris博士等人提出[23, 24]。但是,Norris當(dāng)時只簡單的描述了算法的框架,后面的應(yīng)用文獻中也未看到詳細描述。我們在褚小立的專著[3]中找到了稍微具體的公式,但是嚴(yán)格的方法體系,特別是多參數(shù)融合方法仍需完善。在從事近紅外光譜的長期工作中,我們深感到Norris導(dǎo)數(shù)濾波的柔性生命力。
最近,91儀器信息網(wǎng)和中國儀器儀表學(xué)會近紅外光譜分會計劃開設(shè)的《近紅外光譜新技術(shù)/應(yīng)用進展》網(wǎng)絡(luò)專題,并向我約稿。由此,萌發(fā)了寫一篇小文介紹Norris導(dǎo)數(shù)濾波的想法。
2. Norris導(dǎo)數(shù)濾波(NDF)
NDF是一個基于多個可變參數(shù)的多模式光譜預(yù)處理算法群,在近紅外分析中有廣泛應(yīng)用。它包括移動平均平滑和差分求導(dǎo)兩個環(huán)節(jié),使用三個參數(shù):平滑點數(shù)(s),導(dǎo)數(shù)階數(shù)(d)和差分間隔(g)。功能各異的參數(shù)組合,提供了多樣性的光譜預(yù)處理方式,可以滿足不同對象的近紅外分析的個性化需求。
最近,我們構(gòu)建了三維NDF參數(shù)(d,s,g)遍歷的PLS算法平臺,實現(xiàn)了NDF模式的大范圍參數(shù)優(yōu)化,應(yīng)用于玉米粗蛋白分析和血清尿素氮分析[25, 26]。
【移動平均平滑】
移動平均平滑法選擇一個具有奇數(shù)個波長的平滑窗口(s),用窗口內(nèi)的全體測量值的平均值代替中心波長的測量值,自左至右移動窗口,完成對所有點的平滑(左右半寬帶的波長除外)。設(shè)全譜段的波長總數(shù)為N0,s是一個可變的奇數(shù),s = 1, 3, ,S。理論上,S可以取不超過N0的最大奇數(shù)。由于關(guān)聯(lián)性低,采用太寬的平滑窗口是不合理的,本文設(shè)平滑點數(shù)上限S=99。特別地,s=1代表不進行移動平均平滑,即,原光譜。
設(shè)光譜的第k個波長的吸光度為xk,在以k為中心,寬度為s的對稱波長窗口內(nèi),對中心波長吸光度進行平滑,如下:
值得注意的是,對于最左邊或最右邊的個波長,由于該點左邊或者右邊的點數(shù)小于
,不能進行對稱平滑??紤]到數(shù)據(jù)的連續(xù)性,對于最左邊的
個波長,我們提出近似平滑,如下:
對于最右邊的波長,吸光度的平滑方法類似于公式(2),如下:
上述處理,使得光譜邊界數(shù)據(jù)自然過渡,更為合理。
【差分求導(dǎo)】
為了避免差分求導(dǎo)產(chǎn)生傳遞誤差,通常需要經(jīng)過移動平均平滑光譜后,再進行中心差分法求導(dǎo)。由于近紅外光譜比較平坦,不同對象的光譜分辨率不盡相同。光譜采集的數(shù)據(jù)間隔不一定適用于差分間隔。Norris導(dǎo)數(shù)采用一個可變的波長間隔數(shù)作為導(dǎo)數(shù)的差分間隔(g),g = 1, 2, ,G。由于關(guān)聯(lián)性低,太大的差分間隔是不合理的,本文設(shè)差分間隔的上限G=50。
對于第k個波長的吸光度xk,采用基于差分間隔g的中心差分,計算吸光度的一階導(dǎo)數(shù),自左至右移動,得到所有點的導(dǎo)數(shù)值(左右半寬帶的波長除外)。如下:
值得注意的是,對于最左邊或最右邊的g個波長,由于該點左邊或者右邊的點數(shù)小于g,不能執(zhí)行中心差分法求導(dǎo)??紤]到數(shù)據(jù)的連續(xù)性,對于最左邊的g個波長,我們提出前向差分法計算一階導(dǎo)數(shù),如下:
對于最右邊的g波長,則可通過后向差分法計算一階導(dǎo)數(shù),如下:
二階導(dǎo)數(shù),可由上面的一階導(dǎo)數(shù)再求導(dǎo)獲得,編程實現(xiàn)簡單,不再贅述??紤]到3階以上的高階導(dǎo)數(shù)的絕對量值小,光譜信息含量低,一般不建議采用3階以上的導(dǎo)數(shù)。本文設(shè)導(dǎo)數(shù)階數(shù)為d = 0, 1, 2。特別地,d=0代表不進行差分求導(dǎo),即,只進行移動平均平滑。
【參數(shù)聯(lián)合優(yōu)化】
對于任意一個參數(shù)組合(d, s, g),都對應(yīng)一個Norris導(dǎo)數(shù)模式。對于d = 0, 1, 2;s = 1, 3, , 99;g = 1, 2, 50,共有50+2×50×50=5050個模式。三個功能各異的參數(shù)的變化,使得Norris導(dǎo)數(shù)譜比原譜更為靈活、柔性、多樣化,適用性寬。下面,提出一種基于PLS的Norris參數(shù)的聯(lián)合優(yōu)選方法。為提高參數(shù)選擇合理性,采用基于隨機性、相似性、穩(wěn)定性的定標(biāo)-預(yù)測-檢驗的多劃分建模設(shè)計[27, 28]。
建立所有Norris導(dǎo)數(shù)譜的PLS模型,稱為Norris-PLS模型。計算每一組樣品劃分的預(yù)測均方根誤差(SEP)和預(yù)測相關(guān)系數(shù)(RP)。進一步,計算所有劃分的平均值(SEPAve,RP,Ave)和標(biāo)準(zhǔn)偏差(SEPSD,RP,SD)。并基于綜合預(yù)測效果:
優(yōu)選具有穩(wěn)定性的全局最優(yōu)Norris參數(shù),如下:
此外,對應(yīng)導(dǎo)數(shù)階數(shù)d=0, 1, 2,可以計算兩類單參數(shù)局部最優(yōu)解,如下:
可得到,關(guān)于平滑點數(shù)s的三條建模效果曲線SEP+(0, s),SEP+(1, s),SEP+(2, s)和關(guān)于差分間隔數(shù)g的兩條建模效果曲線SEP+(1, g),SEP+(2, g)。通過它們可以分析Norris參數(shù)的適應(yīng)性。
3. 實例—近紅外玉米粗蛋白分析
【材料】
玉米顆粒樣品156份,研磨并過篩(1.0mm)為粉末樣品(未干燥),采用凱氏定氮法測量樣品粗蛋白。最小值、最大值、平均值、標(biāo)準(zhǔn)差分別為7.31、12.1、9.46、0.92(%)。
【近紅外光譜儀器】
NexusTM 870 FT-NIR光譜儀(Thermo Nicolet Corporation,MA,USA);漫反射附件;波數(shù)范圍:9997~3996 cm-1;分辨率:32 cm-1。
【定標(biāo)-預(yù)測-檢驗的多劃分建?!?/p>
從156個樣品隨機選取56個為檢驗集,余下100個為建模集;進一步將建模集隨機劃分為定標(biāo)集(50個)和預(yù)測集(50個),共10次。對所有劃分建立PLS模型,確定平均預(yù)測效果(SEPAve,RP,Ave,SEPSD,RP,SD,SEP+)。
【分析】
先來觀察玉米粉末樣品的近紅外光譜及其Norris導(dǎo)數(shù)譜的特征。
以一個玉米粉末樣品為例,采用不同平滑點數(shù)(s = 1~49,奇數(shù)),首先計算移動平均平滑譜,如圖1所示。其中,s = 1為原光譜。觀察到:隨著平滑點數(shù)增大,主吸收峰右移,且漸趨平坦。
圖1 玉米粉末樣品的移動平均平滑譜隨平滑點數(shù)的演變圖
在移動平均平滑譜(s = 13)的基礎(chǔ)上,采用不同差分間隔數(shù)(g = 1~30),進一步計算Norris導(dǎo)數(shù)譜(一、二階導(dǎo)數(shù)),如圖2所示。觀察到:主吸收峰翻轉(zhuǎn)為波谷,同時出現(xiàn)新的特征峰。隨著差分間隔增大,波譜幅度逐漸減小。
圖2 玉米粉末樣品的Norris導(dǎo)數(shù)譜隨差分間隔的演變圖: (a)一階導(dǎo)數(shù); (b)二階導(dǎo)數(shù)
再展示相關(guān)的建模效果。
首先,未經(jīng)預(yù)處理的直接PLS模型的平均建模效果,匯總在表1中。
在所有5050個Norris-PLS模型中,全局最優(yōu)模型的參數(shù)(NDF模式)為d =2,g =3和s=13,相應(yīng)的建模效果,也匯總在表1中。觀察到:所有預(yù)測效果的指標(biāo)均有顯著的改善。
表1 玉米粗蛋白分析的建模預(yù)測效果(%)
進一步觀察Norris參數(shù)的適應(yīng)性。采用單參數(shù)局部最優(yōu)解,分析建模效果曲線。其中,SEP+(2, s)、SEP+(2, g),參見圖3。
圖3 單參數(shù)局部最優(yōu)Norris-PLS模型的建模效果:(a)平滑點數(shù),(b)差分間隔數(shù)
在所有二階的Norris導(dǎo)數(shù)譜中(d=2),不同平滑點數(shù)對應(yīng)于局部最優(yōu)模型的SEP+,如圖4(a)所示;不同差分間隔數(shù)對應(yīng)于局部最優(yōu)模型的SEP+,如圖4(b)所示。觀察到:不同參數(shù)的建模效果差異頗大。
結(jié)果表明:(1)不同的Norris參數(shù),建模預(yù)測效果明顯不同;(2)參數(shù)的設(shè)置,不能憑經(jīng)驗設(shè)定,針對具體情況進行全局優(yōu)化是必要的。
后 語
Norris導(dǎo)數(shù)濾波是一種執(zhí)行良好的光譜預(yù)處理算法群。功能各異的參數(shù)融合,可提升近紅外光譜的柔性生命力,滿足多樣性光譜預(yù)處理的個性化需求。Norris模式的優(yōu)化選擇是必要的。
這里分享的,可能是近紅外的一個小話題。但,近紅外光譜分析就是由多個這樣的小話題組成的。從2006年第一屆全國近紅外光譜會議召開,到近紅外分會成立十周年的現(xiàn)在,我們見證了我國近紅外事業(yè)的發(fā)展壯大。祝福它!這里的內(nèi)容可能有點艱澀,但我們相信它是有趣的。謝謝大家的閱讀,懇請?zhí)岢鰧氋F意見!
參考文獻
[1] R.J. Barnes, M.S. Dhanoa, Susan J. Lister., Appl Spectrosc, 1989, 43(5): 772–777
[2] M.S. Dhanoa, S.J. Lister, R. Sanderson, R.J. Barnes, J Near Infrared Spec, 1994, 2(1): 43-47.
[3] 褚小立,化學(xué)計量學(xué)方法與分子光譜分析技術(shù),北京:化學(xué)工業(yè)出版社,2011
[4] J.M. Chen, M.L. Li, T. Pan, L.W. Pang, L.J. Yao, J. Zhang, Spectrochim Acta A, 2019, 219: 179-185
[5] J. Zhang, M.L. Li, T. Pan, L.J. Yao, J.M. Chen, Comput Electron Agr, 2019, 164: 104882
[6] P. Geladi, D. MacDougall, H. Martens, Appl Spectrosc, 1985, 39:491-500.
[7] T. Isaksson, T. N?s, Appl Spectrosc, 1988, 42:1273-1284
[8] K.E. Kramer, R.E. Morris, S.L. Rose-Pehrsson, Chemometr Intell Lab, 2008, 92:33-43.
[9] A Rinnan, F. van den Berg, S.B. Engelsen, Trends Anal Chem, 2009, 28:1201-1222.
[10] T. Isaksson, B. Kowalski, Appl Spectrosc, 1993, 47:702-709.
[11] T. N?s, T. Isaksson, T. Feaern, T. Davies, A User Friendly Guide to Multivariate Calibration and Classification, Chichester, UK: NIR Publications, 2002
[12] F.F. Lei, Y.H. Yang, J. Zhang, J. Zhong, L.J. Yao, J.M. Chen, T. Pan, Chemometr Intell Lab, 2019, 191(15):158-167
[13] A. Savitzky, M.J.E. Golay, Anal Chem, 1964, 36(8): 1627-1639
[14] 謝軍,潘濤,陳潔梅,陳華舟,任小煥,分析化學(xué),2010,38(3): 342-346
[15] H.Z. Chen, T. Pan, J.M. Chen, Q.P. Lu, Chemometr Intell Lab, 2011, 107: 139-146
[16] 潘濤,吳振濤,陳華舟,分析化學(xué),2012,40(6): 920-924
[17] H.S. Guo, J.M. Chen, T. Pan, J.H. Wang, G. Cao, Anal Methods, 2014, 6: 8810-8816
[18] Y. Han, J.M. Chen, T. Pan, G.S. Liu, Chemometr Intell Lab, 2015, 145: 84-92
[19] J.M. Chen, L.J. Peng, Y. Han, L.J. Yao, J. Zhang, T. Pan, Spectrochim Acta A, 2018, 193: 499-506
[20] L.J. Yao, W.Q. Xu, T. Pan, J.M. Chen, J Innov Opt Heal Sci, 2018, 11(2): 1850005
[21] J.M. Chen, Z.W. Yin, Y. Tang, T. Pan, Anal Bioanal Chem, 2017, 409(10): 2737-2745
[22] J. Zhang, F.F. Lei, M.L. Li, T. Pan, L.J. Yao, J.M. Chen, Spectrochim Acta A, 2019, 219:427–435
[23] K.H. Norris, P.C. Williams, Cereal Chem, 1984, 61(2): 158-165
[24] P.C. Williams, K.H. Norris, Near-infrared Technology in the Agricultural and Food Industries, American Association of Cereal Chemists, Inc., St. Paul, Minnesota, USA, 1987
[25] J. Zhang, L.J. Yao, Y.H. Yang, J.M. Chen, Tao Pan, 19th International Council for NIR Spectroscopy Meting (NIR2019), 2019, Gold Coast, Australia
[26] Y.H. Yang, F.F. Lei, J. Zhang, L.J. Yao, J.M. Chen, T. Pan, J Innov Opt Heal Sci, 2019, 1950018
[27] T. Pan, J.M. Liu, J.M. Chen, G.P. Zhang, Y. Zhao, Anal Methods, 2013, 5: 4355-4362
[28] T. Pan, M.M. Li, J.M. Chen, Appl Spectrosc, 2014, 68(3): 263-271
(暨南大學(xué)光電工程系 潘濤,張靜,施小文 供稿)