毛白杨近红外光谱数据建立综纤维素含量数学模型
摘要建立一种基于朗伯—比尔(Lambert-Beer)定律可预测毛白杨杂交子代综纤维素含量的数学模型,即先对近红外光谱数据预处理,并将光谱数据按波长进行分组,建立众多非线性子数学模型,最后通过加权平均值公式给出综纤维素含量的预测模型。其预测值之间的相关系数r=0.945 5,平均相对误差为0.006 0,模型的拟合优度R2=0.894 0。此模型可作为一种预测毛白杨综纤维素含量的方法,也有益于今后纸浆性能预测。
关键词毛白杨;综纤维素含量;数学模型;近红外光谱
中图分类号TS721文献标识码A文章编号 1007-5739(2011)08-0015-02
EstablishmentofHolocellulose ContentMathmaticalModelinPopulus tomentosabyNearInfraredSpectralData
ZHU LiZHANG Wen-jie *LIU Sheng
(Beijing Forestry University,Beijing 100083)
AbstractIn this paper,the theoretical model ofpredicting Populus tomentosa-holocellulose contents was established basing on Lambert-Beer law . The first step of modeling method was to take pretreatments on near infrared spectral data,which could be divided into many groups according to the wavelength,then built up 50 groups nonlinear mathematical model,finally the holocellulose contents ensemble prediction model was given by the weighted average formula. The correlation coefficient r=0.945 5,the average relative error was 0.006 0,the goodness of fit index R2=0.894 0.This model establishment as a new method to predict the Populus tomentosa-holocellulose contents,may benefit future pulp performance prediction.
Key wordsPopulus tomentosa;holocellulose content;mathmatical model;near infrared spectrum
由于近红外光谱技术具有快速、准确、低成本分析等优点,近年来应用于木材材性分析,已经建立了部分树种化学成分的近红外数学模型[1-4]。但几种红外光谱的数据处理方法还有不足之处。如主成分回归方法虽可有效解决共线问题、变量数使用限制问题,并在一定程度上解决了噪音滤除问题,但不能保证参与回归的主成分一定与被测组分的性质有关。而偏最小二乘法把数据分解和回归相融合,得到的特征值向量直接与被测组分或性质有关,适于非线性数据的建模,但是建模过程极其复杂。人工神经网络法只适用于谱峰重叠严重、有用信号较弱、噪音较大的谱图。因此,有必要依据朗伯—比尔(Lambert-Beer)定律的原理建立新模型[5-7]。
在众多树种中,三倍体毛白杨具有其优越的纸张性能,其抗张指数、撕裂指数、耐破指数、耐折度等物理性能没有因速生而降低。从边材到心材色度洁白,质地细腻,具有潜在的可漂性,漂白浆的机械强度也较好。因此,其作为造纸原料具有良好前途[8-9]。该文通过朗伯—比尔(Lambert-Beer)定律[10],建立一种新的预测毛白杨杂交子代综纤维素含量的数学模型。目前,用此数学模型预测毛白杨综纤维素含量未见报道,并且模型普适性好,推广有可行性,今后有益于纸浆性能预测。
1材料与方法
1.1试验材料
原材料为毛白杨原木,取材于北京市海淀区,为毛白杨杂交子代。每棵样品树从胸高1.3 m处截取高为15 cm的圆盘,将其磨碎后通过40目筛,但留于60目的木粉用于化学分析和采谱用[11],共制得70个样品。
1.2试验仪器
近红外光谱仪(德国BRUKER光谱仪器公司生产),带有配套的OPUS 6.5软件。
1.3试验方法
综纤维素含量测定按照国标GB/T 2677.10—1995进行。用近红外光谱仪对毛白杨木粉进行扫描,扫描范围为波数4 000~12 000 cm-1,每个样品采谱3次,取平均值,且间隔30 min进行1次背景扫描,对样品谱图进行噪声滤除、归一化处理、数据筛选和光谱范围优选及中心化及标准化等预处理。
1.3.1光谱数据的分组方法及预处理。将70个光谱数据分成2组,用60个构成校正集,其余10个构成验证集。设YA=(y,y,…,y)为校正集的综纤维素含量向量,将校正集的吸光值向量按波长从小到大的次序排列,依次记为x,x,…,x,这样可以制成2 074×70的一张光谱数据Excel工作表,它囊括了随机选取的校正集与验证集的所有光谱数据。
由于波长较小的吸光值噪音成分稍高,所以该文对xi进行了预处理,方法是用x,x,x的平均值代替x(经过预处理后的吸光值向量仍记为x)(i=1,2…,800)[11]。对于x,x,…,x该文未进行预处理,以免有用信息的丢失。
将验证集的综纤维素含量向量和吸光值向量类似地记为YB和x,x,…,x,并对吸光值向量做类似的预处理。将x,x,x,x,x,……分为一组(1≤i≤50)。可将每组吸光值如下排列xk1,xk2,…,x,其中(k=1,2……,50)。
1.3.2数学模型的建立。使用校正集中的数据进行建模。为了便于使用拟合方法,然后对每组数据建立子模型,设x,x,…,x为第k组的吸光值向量(k=1,2…,50),参考物理光学中的朗伯—比尔定律,其表达式为:
A=lg(1/T)=Kbc[10]
式中,A为吸光度;T为透射比,是透射光强度与入射光强度的比值;c为吸光物质的浓度;b为吸收层厚度。该文设YA可由非线性表达式Y=ck0IA+ckiln(IA-X)近似表示,其中cki(i=0,1,…,rk)为待定常数,YA=Y+εk=ck0IA+ln(IA-X)+εk,其中εk=(εk(1),εk(2),…,εk(60))为误差向量,IA是分量均为1的60维向量。计算子模型的平均相对误差:
=(1)
最后,对Y进行加权平均,即可得到YA的估计值向量qkY,其中qk为权重系数,由经验公式确定,即
qk=(2)
对验证集的吸光值向量做完全相同的分组,令
YBk=ck0IB+ckiln(IB-X)(3)
式中,IB是分量均为1的10维向量,则qkY就是Y的估计值向量[11-12]。
2结果与分析
2.1模型准确性分析
表1给出了上述模型的误差情况。可以看出,用qkY作为YB的预测值所产生的平均相对误差为0.006 0 [11],实验值与预测值之间的相关系数r=0.945 5,模型的拟合优度R2=0.894 0。预测值与实验值的对比情况见图1。误差原因在于基础数据的准确性,基础数据越准确,所建立模型的精度越高,其对未知样本的预测结果也越精准[13-15]。
从所建模型的角度,为减小误差:文中不限定cki的正负,用Matlab软件求出常数,cki(i=0,1,…,rk)中rk范围为0≤rk≤rn的值,由于所建数学模型的预测效果主要取决于子模型的数量和每个子模型的好坏[11],每个子模型的的计算与筛取是实现模型稳健、提高模型精度的核心,所以也常用来评价子模型的好坏。此外,如果某些波长的吸光值对子模型的影响太小(即cki太小),可考虑将这些吸光值向量从小组中剔除掉[11],剔除部分不重要的吸光值向量往往可以改进子模型的预测效果,但需要权衡和rk的值,即在追求值尽可能小的同时,可使16≤rk≤22,rk决定子模型吸光值向量的参与水平。
2.2吸光度与综纤维素含量
对模型的预测值qkY有:
qkY=qkck0IB+qkckiln(IB-X)(4)
令Qki=qkcki=Qki(5)
则qkY=qkck0IB+Qkiln(IB-X)(6)
一般情况下,由于cki有正负之分,可用Qki表示吸光值的选取的权重,实质上每个子模型运算后会有一个相应吸光值的选取,cki决定子模型吸光值向量的参与水平,但需具体到rk个吸光值为哪些,每个子模型中取cki绝对值最大的rk个,但不能认为相应的吸光度就是对综纤维素含量、纸浆造纸最有贡献,而是本身第k个子模型中qkcki=Qki为多大才能判断哪些吸光度与综纤维素含量息息相关。
3结论
模型预测值所产生的平均相对误差为0.006 0,实验值与预测值之间的相关系数r=0.945 5,模型的拟合优度R2=0.894 0。预测结果表明:用近红外光谱数据建立的以朗伯—比尔(Lambert-Beer)定律为理论依据的数学模型,可用于快速分析毛白杨杂交子代的综纤维素含量,对推广毛白杨其他品系模型建立提供可行性,同时也为纸浆造纸性能预测提供支持。
4 致谢
感谢北京林业大学材料学院蒲俊文教授,吴玉英副教授提供样品,并进行近红外光谱分析,及姚胜、徐瑞雪、李有志的帮助。
5参考文献
[1] HODGE G R,WOODBRIDGE W C.Use of near infrared spectroscopyto predict lignin content in tropical and subtropical pines[J].Journal of Near Inf rared Spect roscopy,2004,12(6):381.
[2] 黄安民,江泽慧,李改云.杉木综纤维素和木质素的近红外光谱法测定[J].光谱学与光谱分析,2007,27(7):1328-1331.
[3] SYKES R,LI B L,HODGE G,et al.Prediction of lobolly pine wood properties using transmittance near-infrared spectorscopy[J].Canadian Journal of Forest Research,2005,35(10):2423.
[4] GIERLINGER N,SCHWANNINGER M,HINTERSTOISSER B,et al.Rapid determination of heartwood extractives in Larix sp.by means fourier transform near infrared spectroscopy[J].Journal of Near Infrared Spectroscopy,2002,10(3):203-214.
[5] 魏广芬,唐祯安,余隽.基于主成分分析和BP神经网络的气体识别方法研究[J].传感技术学报,2001(4):41-47.
[6] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
[7] 张银,周孟然.人工神经网络BP 算法在近红外光谱分析中的应用[J].红外.2006,27(11):1-4.
[8] 孔凡功,陈嘉川,杨桂花,等.三倍体毛白杨APMP制浆的研究[J].中国造纸,2003,22(5):15-18.
[9] 房用,张兴丽,孟振农,等.杨树造纸材优良无性系解剖结构的研究[J].中国造纸学报,2007,22(2):1-7.
[10] 李忠光.植物生理学实验中朗伯-比尔定律及其推导公式的探讨[J].植物生理学通讯,2010,46(1):73-74.
[11] 刘胜,张文杰.用近红外光谱数据建立相思树综纤维素含量数学模型[J].红外,2010,31(5):37-40.
[12] JONES P D,SCHIMLECK L R,PETER G F,et al.Nondestructive estimation of wood chemical composition of sections of radial wood strips by diffuse reflectance near infrared spectroscopy[J].Wood Science and Technology,2006,40(8):709-720.
[13] 李琼飞,杨增玲,韩鲁佳.肉骨粉中牛羊源成分含量的近红外漫反射光谱分析[J].红外与 mm波学报,2007(6):44-48.
[14] 褚小立,袁洪福,陆婉珍.基础数据准确性对近红外光谱分析结果的影响[J].光谱学与光谱分析,2005,19(6):886-889.
[15] EINSPAHR D W,PECKHAM J R,BENSON M K.Fiber and pulp properties of triploid and triploid hybrid aspen[J].Tappi,1970,53(10):1853-1856.
上一篇:无热化保形光学系统设计