江西烤烟淀粉近红外检测模型的建立

李 卓1,张 棋2,张雄峰1,张启明1,何宽信1

(1.江西省烟草科学研究所,江西 南昌 330000;2.泸州市环境监测中心站,四川 泸州 646000)

摘 要:【目的】 传统的碘显色法检测淀粉含量需要复杂耗时的前处理和实验准备,近红外检测手段不仅操作简单、检测快速,且不损耗试剂、样品、标准品,大大降低了检测成本,旨在以江西烤烟样品为依托,建立一种适用于江西烤烟的淀粉近红外检测模型。【方法】 收集了来自江西21个区县共650个烤烟样品的近红外光谱和对应的连续流动分析仪检测数据(碘显色法),将光谱数据和化学分析数据一一对应,使用不同的回归方法和数据处理方法进行建模,通过比较它们的均方根误差和相关系数确定最佳的模型参数。【结果】 建立了适用于江西烤烟的淀粉含量预报模型,校正均方根误差和预测均方根误差分别达到0.407、0.490,相关系数为96.52%,并用外部样品对模型进行了验证,95%的样品误差在10%以内。【结论】 该模型可用于快速检测江西烤烟样品中的淀粉含量,并可在一定程度上取代传统的碘显色测淀粉法,降低了检测成本,提高了分析效率。

关键词:江西烤烟;近红外光谱;定量分析;化学计量学;淀粉

【研究意义】 近红外光谱辐射区域介于可见光和中红外光之间(4 000~12 500 cm-1),轻型原子间的化学键(如C-H,O-H 和N-H)会发生振动而产生复杂重叠的倍频和合频谱带[1-2]。近红外光谱谱带重叠严重,很难将透射峰直接与特定结构的官能团相对应。近年来,随着数据处理技术的丰富,加上近红外光谱技术本身具有快速、高效、无损等特点,被广泛用于农产品中营养物质及功能性组分的测定及定量预报[3-7]。近红外辐射比中红外具有更强的穿透能力,能深入样品内数毫米,意味着近红外光谱能反映样品内部的某些信息[8],为快速无损检测创造了条件。但近红外数据量较大且无明显规律,通常需要结合化学计量学方法对数据中的信息进行提取和利用[9]。淀粉是由D-葡萄糖通过苷键结合而成的多糖,存在于植物细胞内,尤其是种子、块茎和块根等[10]。淀粉也是烟叶中的重要组成部分,烟叶进入成熟期后,淀粉会转化为还原糖和有机酸,淀粉含量也是衡量烟叶品质的重要指标之一,通常认为,淀粉含量越高,烟叶的成熟度越低[11]。目前,烟草行业主要采用碘显色法(YC/T 216-2013)对烟叶中淀粉含量进行检测,基本原理是:烟叶样品用80%乙醇-饱和氯化钠溶液除杂质,再用40%高氯酸提取淀粉,酸性条件下淀粉水解生成糊精,糊精与碘发生显色反应并于570 nm处比色测定[12]。传统的碘显色法需要复杂耗时的前处理和实验准备:一方面,整个淀粉浸提过程相对耗时费力;另一方面,由于不同的淀粉(直链:支链)遇碘显色不完全相同(呈蓝色或呈紫色)[13],因此在配制标准溶液时必须按照行业标准规定的淀粉标液中直链:支链1∶4的比例配制标准溶液,并且由于含有4%的高氯酸,随时间的推移淀粉会逐渐水解[14],因此标液不宜保留过久。【前人研究进展】 近红外检测手段操作简单、检测快速,几乎不消耗试剂、样品、标准品,降低了检测成本。利用烟叶的近红外数据可建立烟叶产地和等级的定性识别模型,也可建立烟叶中某些化学组分的定量预报模型。烟草行业内对于近红外检测手段的使用也在逐渐增多[15],上海烟草集团、郑州烟草研究院、云南中烟等单位都建立了各自的近红外检测模型[16-18],然而很多具体的建模细节和方法理论阐述不够充分,基于江西烤烟的近红外检测模型也尚未有报道。【本研究切入点】 本研究以淀粉为例,首次将近红外预报模型建模方法应用于江西烟草,收集烟叶样品的近红外光谱数据和对应化学分析数据,对近红外光谱数据进行预处理,消除环境背景和仪器状态导致的噪音和随机误差,再对高维度的近红外光谱数据进行降维并选择合适的变量,最后建立校正曲线,并验证模型的准确性和稳定性。【拟解决的关键问题】 旨在通过近红外光谱技术和化学计量学方法建立用于江西烤烟的淀粉近红外检测模型,同时将建模步骤具体化,并充分阐述方法的理论支撑。本研究对于江西烟叶的质量控制和其他烟草模型的建立具有重大指导和借鉴意义。

1 材料与方法

1.1 试验材料

选择江西2014年和2015年的上(B2F)、中部(C3F)烟叶烤烟样品共650个,其中2014年上部烟161个、中部烟161个,2015年上部烟164个、中部烟164个(表1)。

仪器:配备积分球漫反射采样系统的近红外光谱仪(AntarisⅡ型,赛默飞,美国);连续流动分析仪(San++,SKALAR,荷兰)

1.2 样品制备

先用软毛刷将烟叶上的细土和砂粒刷去,抽去主脉,将烟叶用切丝机切丝,再放入烘箱中,在不高于40 ℃的烘箱中烘干,直至烟丝可用手指捻碎,取出烘好的烟丝,马上研磨,持续研磨时间不应超过2 min,然后用0.42 mm网过筛,得到粒径均匀的烟粉样品[19]

1.3 光谱数据的采集

取10 g烟叶粉末,均匀填装进内径5 cm样品杯,用铜块压实,然后在FT-NIR分析仪上进行漫反射光谱采集。光谱采集时样品杯相对光源入射孔作偏心旋转,扫描次数64次,分辨率8 cm-1,扫描范围3 800~12 000 cm-1,步长为3.86 cm-1。以积分球镀金内壁作为背景,每个样品扫描前均扫描背景,扫描次数同样为64次,实验温度控制在25.0(±1.0)℃。

1.4 化学分析数据的收集

淀粉含量的化学分析数据由连续流动分析仪根据行业标准YC/T 216-2013检测得到[12]

1.5 化学计量学方法

1.5.1 标准正则化 标准正则化(Standard NormalVariate,SNV)常用于消除斜率的影响[20],首先计算一条光谱的平均吸光度值,用不同波数点处的吸光度值与平均吸光度值的差值除以它们的相对标准偏差得到不同波数点处新的吸光度值,继而得到新的光谱。

表1 烤烟样品的产地信息
Table 1 Origin information of flue-cured tobacco samples

不同年份/部位的样品数Sample amount of different years and parts 合计Total 2014/B2F 2014/C3F 2015/B2F 2015/C3F赣州Ganzhou产地Origin产地标号Mark赣县 A 2 2 2 2 8石城 B 14 14 14 14 56瑞金 C 14 14 14 14 56安远 D 10 10 10 10 40会昌 E 17 17 17 17 68宁都 F 3 3 3 3 12兴国 G 5 5 5 5 20信丰 H 9 9 6 6 30抚州Fuzhou峡江 P 12 12 12 12 48永丰 Q 11 11 11 11 44安福 R 13 13 13 13 52泰和 S 2 2 2 2 8万安 T 1 1 0 0 2宜春Yichun南丰 I 0 0 2 2 4广昌 J 12 12 11 11 46乐安 K 12 12 12 12 48黎川 L 13 13 12 12 50宜黄 M 9 9 9 9 36资溪 N 0 0 3 3 6崇仁 O 2 2 2 2 8吉安Ji'an上高 U 0 0 3 3 6万载 V 0 0 1 1 2

式中,Xi为第i样品光谱的平均值,k=1,2…m,m为波长点数;i =1,2 …,n,n为样品数。

1.5.2 多元散射校正 多元散射校正(Multiplicative Scatter Correction,MSC)常用于减少散射效应对数据响应的影响[21],首先计算所有样品近红外光谱的平均光谱,然后将平均光谱作为标准光谱,每个样品的近红外光谱与标准光谱进行一元线性回归运算,求得各光谱相对于标准光谱的线性平移量(回归常数)和倾斜偏移量(回归系数),在每个样品原始光谱中减去线性平移量同时除以回归系数修正光谱的基线相对倾斜,这样各光谱的基线平移和偏移都可得到修正。

1.5.3 Savitzky-Golay(SG)平滑和 Norris Derivative(ND)平滑 SG平滑又称移动窗口平滑,是一种在时域内基于局域多项式最小二乘法拟合的滤波方法,利用中心点及其前、后各w个点进行最小二乘拟合,新点其实是这个窗口内各点的线性组合,由不同权值的2w+1个点进行加权而得。这种平滑方法最大的特点在于在滤除噪声的同时可以确保信号的形状和宽度不变。ND平滑又称直接差分法,是一种最简单的离散波谱求导方法,常常用于原始光谱求导前消除光谱变换带来的噪音[22]

1.5.4 朗伯比尔定律和多元线性回归 朗伯比尔定律(Lambert-Beer’s law,LBL)是光吸收的基本定律,是一元线性回归,当光程和光波长确定时,吸光度只与物质的浓度成正比。多元线性回归(Multiple Linear Regression,MLR)是一元线性回归在处理两个或者两个以上变量时的扩展,实际应用中往往存在多个重要因素的影响,因此在建模中的使用价值大于一元线性回归[23]

1.5.5 经典最小二乘回归 经典最小二乘回归(Classical Least-Squares Regression,CLSR)是通过最小化误差的平方和寻找数据的最佳函数匹配[24]。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小,由此得到回归直线,该方法外标法分析检测中最常用的回归方式。

1.5.6 逐步多元线性回归 逐步多元线性回归(Stepwise Multiple Linear Regression,SMLR)是将变量逐个引入模型,进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,可将其删除,保证回归方程中只包含显著性变量。直到既没有显著的解释变量选入回归方程也没有不显著的解释变量从回归方程中剔除为止[25]

1.5.7 主成分回归 主成分回归(Principal Component Regression,PCR)通过奇异值分解将原始的图谱数据矩阵分解成得分矩阵、载荷矩阵和残差矩阵,即将原数据的特征变量进行线性组合,转化成一组称作为主成分(PCs)的正交变量,是响应和独立变量之间最小方差的超平面。主成分回归能对原始变量进行降维,并最大限度的保留原始数据信息,并能解决共线性问题和变量数限制问题,可以用于复杂体系的回归[26-27]

1.5.8 偏最小二乘回归 偏最小二乘法回归(Partial Least-Squares Regression,PLSR)是集主成分分析和多元线性回归优点的一种回归方法。它与主成分分析法都试图提取出反映数据变异的最大信息,主成分分析法只考虑一个自变量数据矩阵X,而偏最小二乘法还考虑响应数据矩阵Y,因矩阵X和Y都会投影到新空间,因此预测结果往往优于主成分回归[28-29]

2 结果与分析

2.1 选择不同数据前处理方法的模型效果

在进行粉末样品的近红外漫反射光谱采集时,由于样品的均匀性和尺寸颗粒不同,光程也不一样,因此需要对光谱数据进行预处理以消除光程的影响,常用的方法有SNV和MSC。图1A和1B分别是烟叶样品的近红外原始光谱和SNV光谱,可以看到经SNV处理后,光谱偏移得到了很大改善。另外导数处理也可以一定程度消除基线偏移还可以分离重叠信息。图1C和图1D分别是样品的一阶和二阶导数光谱,可以看出,相比原始光谱,基线差异明显减小且重叠信息得到了分离。但高阶导数处理在放大信息的同时也会放大噪声,因此在导数处理之前通常还要对数据进行滤波(平滑)处理。滤波的作用是减小噪声,提高信噪比,我们选择了SG和ND两种滤波方式。如表2所示,在进行了不同的光程类型方式、平滑方法和导数阶数的组合建模后,我们发现选择MSC+ND(5,5)+一阶导数的组合建立的模型具有最小的均方根误差和最大的相关系数。

2.2 选择不同波数区间的模型效果

样品的近红外光谱扫描范围为3 800~12 000 cm-1,步长为3.86 cm-1,有多达2 127个数据点,其中既包含与目标检测物相关的有效信息,也包含很多影响拟合结果的无用信息,选择波数区间太宽,虽然能够保留较多的样品信息,但同时也会引入大量的噪音和冗余信息,反而会使模型的预测效果变差,选择波数区间太窄又会造成信息的丢失和不全,不能完全提取样品代表性的特征信息,因此需要对原始光谱数据进行取舍。波数区间的选择对模型至关重要,是建模过程中最难以确定的环节,它完全取决于建模样品的实际模型效果,需要反复尝试不同波段;除了要考虑模型的匹配程度,还要考虑模型的兼容性,因此在进行波数选择时,尽可能要选择波数区间段,而不是离散的波数点,并且要避免选择干扰较大的区间。图2B标出了C-H,O-H 和N-H等官能团的振动倍频和合频谱带,参考这些谱带波段,我们选择了10种波数区间或区间组合用来建立模型。如表3所示,当波数区间选为4 000~4 500 cm-1和5 800~6 400 cm-1的组合时,模型具有最小的均方根误差和最大的相关系数。根误差和最大的相关系数。LBL、MLR、SMLR、CLSR的误差较大,RMSEC均在2以上,且相关系数很差,可能有以下原因:首先LBL要求吸光物质为均匀非散射体系,吸光质点之间无相互作用,因此对于复杂体系使用价值有限;MLR虽然可以容纳更多的变量数,但仍不适用于非散射体系;SMLR虽然可以对变量进行筛选,但是也会出现共线性的问题;CLSR常用于构建标准曲线,但是也会受共线性的问题的影响。PCR的回归效果也不及PLSR,这可能是:虽然PCR通过数据降维产生新变量(主成分)解决了共线性问题和变量数限制问题,但是参与回归的主成分不一定一定与样品性质有关,因此预报能力有限,而PLSR特征向量与样品性质直接相关,在保证奇异值影响不大的情况下,预测能力往往好于主成分回归,更适用于复杂体系的回归。

图1 所有样品的近红外原始光谱(A)、标准正态化光谱(B)、一阶导数光谱(C)、二阶导数光谱(D)
Fig.1 NIR(A), SNV(B), first derivative (C)and second derivative(D) spectra of all samples

表2 不同数据前处理方法组合参数的模型效果
Table 2 Model effects of combination parameters of different data pretreatment methods

注:RMSEC和RMSEP分别为校正集均方根误差和预报集均方根误差,样品按照20∶1的比例随机选集。
Note: RMSEC and RMSEP represent the root mean square error of calibration and root mean square error of prediction, respectively, and the samples are randomly selected according to the ratio of 20∶1.

Derivative Correlation coefficie 1 SNV / / 原始光谱 1.257 1.534 0.8613 2 SNV SG 7,3 原始光谱 1.114 1.235 0.9028 3 SNV SG 7,3 一阶导数 0.782 1.063 0.9224 4 SNV ND 5,5 一阶导数 0.622 0.823 0.9247 5 SNV ND 9,5 一阶导数 0.603 0.853 0.9177 6 SNV SG 7,3 二阶导数 0.678 0.889 0.9278 7 SNV ND 5,5 二阶导数 0.587 0.669 0.9346 8 SNV ND 9,5 二阶导数 0.602 0.745 0.9355 9 MSC / / 原始光谱 1.087 1.354 0.8819 10 MSC SG 7,3 原始光谱 0.887 1.133 0.9143 11 MSC SG 7,3 一阶导数 0.564 0.754 0.9301 12 MSC ND 5,5 一阶导数 0.407 0.490 0.9652 13 MSC ND 9,5 一阶导数 0.478 0.568 0.9557 14 MSC SG 7,3 二阶导数 0.512 0.674 0.9547 15 MSC ND 5,5 二阶导数 0.406 0.623 0.9611 16 MSC ND 9,5 二阶导数 0.432 0.601 0.9587 No.Optical path Smooth Segment length,spacing RMSEC* RMSEP* 相关系数nt序号 光程类型 平滑 段长、间距 导数

表3 不同波数区间的模型效果
Table 3 Model effects of different wavenumber intervals

序号No.Interval range(cm-1RMSEC RMSEP Correlation coef相关系数ficient区间范围1 3800~12000 0.988 1.223 0.9024 2 4000~4500 0.766 0.902 0.9205 3 4800~5500 0.879 0.875 0.9235 4 5800~6400 0.589 0.896 0.9441 5 6700~7700 0.657 0.854 0.9223 6 8000~9300 1.223 1.114 0.9007 7 4000~4500 0.407 0.490 0.9652 5800~6400 8 4000~4500 0.501 0.511 0.9557 5800~6400 8000~9300 9 4800~5500 0.689 0.901 0.9124 6700~7700 10 4000~4500 0.645 0.787 0.9213 4800~5500 5800~6400 6700~7700

表4 不同回归方式的模型效果
Table 4 Model effects of different regression types

序号No.回归方式Regression type RMSEC RMSEP 相关系数Correlation coefficient 1 LBL 3.242 2.895 0.3934 2 CLSR 3.021 2.376 0.6687 3 MLR 2.894 2.211 0.7008 4 SMLR 2.053 1.808 0.8213 5 PLSR 0.407 0.490 0.9652 6 PCR 1.025 1.294 0.9029

2.4 主成分数的选择

PLSR需要在评估均方根误差的基础上选择主成分数,以尽可能少的主成分来反映原样本空间最大的信息。图2是均方根误差随主成分数变化的曲线图,在主成分数为9时,均方根误差达最小,累计贡献率达到99.1%。

图2 选择主成分数的碎石图
Fig.2 The gravel map for selecting principal components

3 讨论

比较了不同的光谱数据预处理方法、波数区间、回归方式、主成分数后,确定了最佳的建模参数,如表5所示。图3A是模型的回归直线,横坐标为化学检测值、纵坐标为模型预报值,所有样品均集中在拟合直线附近,没有明显的离群值,模型相关系数达到0.9652,校正均方根误差为0.407,预测均方根误差为0.490。图3B是模型预测值和化学检测值的相对偏差分布,均在15%以内,将样品的相对偏差以0为中点,每隔2%分别进行统计,如图3B所示,样品的偏差分布接近高斯曲线,一定程度上反映了模型的稳定性。

表5 江西烤烟近红外淀粉模型信息
Table 5 Information of NIR model for starch content in Jiangxi flue-cured tobacco

参数类型 Parameter type 参数信息 Parameter information建模条件Modeling conditions模型样本量Sample amount 650数据前处理方法Data pretreatment method MSC,一阶导数,ND(5,5)平滑波数区间 Waveltumber interval (cm-1) 4000~4500, 5800~6400含量范围 Content range(%) 2.158-11.990回归方式Regression type PLSR主成分数Principal components 9模型效果Model peffect校正均方根误差RMSEC 0.407预测均方根误差RMSEP 0.490校正集样品相关系数Correlation coefficient of calibration set 0.9652预报集样品相关系数Correlation coefficient of prediction set 0.9515

图3 淀粉模型的PLS回归图(A)与相对偏差散点图(B)
Fig.3 PLS regression plot of the starch NIR model(A), scatter diagram of relative deviation (B)

为进一步验证模型的实用性,随机选择40个外部样品,通过比较它们的化学分析值和近红外模型预报值,评价模型的预测效果,规定相对偏差<10%为预报结果通过。如表6所示,绝大部分样品的预测结果良好,相对偏差较小,只有两个样品的预测相对偏差超过10%,预报通过率达到95%,表现了模型良好的预测效果。

表6 外部样品的模型验证结果
Table 6 The model verification results of external samples

序号No.预报结果是否通过Pass or not(%)1 5.158 5.482 6.282 是2 6.179 6.431 4.078 是3 7.375 7.484 1.478 是4 4.576 4.874 6.512 是5 5.294 5.663 6.970 是6 7.440 7.446 0.081 是7 4.375 4.951 13.17 否8 4.877 5.190 6.418 是9 7.039 7.292 3.594 是10 5.285 5.208 1.457 是11 7.471 7.250 2.958 是12 6.068 6.514 7.350 是13 6.780 7.075 4.351 是14 7.623 7.315 4.040 是15 7.639 8.120 6.297 是16 9.575 9.915 3.551 是17 7.361 7.477 1.576 是化学分析检测值Chemical analysis value(%)模型预报值Model prediction(%)相对偏差Relative deviation(%)

(续表6)

序号No.预报结果是否通过Pass or not(%)18 4.631 5.082 9.739 是19 7.152 7.670 7.243 是20 6.077 6.511 7.142 是21 4.667 4.988 6.878 是22 5.187 5.375 3.624 是23 6.755 6.963 3.079 是24 6.363 6.480 1.839 是25 6.850 6.710 2.044 是26 6.720 7.767 15.580 否27 7.033 7.496 6.583 是28 5.685 5.977 5.136 是29 3.374 3.614 7.113 是30 6.674 7.319 9.664 是31 5.824 6.076 4.327 是32 8.722 8.209 5.882 是33 5.211 5.555 6.601 是34 6.556 6.386 2.593 是35 4.410 4.579 3.832 是36 5.642 5.869 4.023 是37 6.629 6.505 1.871 是38 4.218 4.554 7.966 是39 4.330 4.299 0.716 是40 5.187 5.539 6.786 是化学分析检测值Chemical analysis value(%)模型预报值Model prediction(%)相对偏差Relative deviation(%)

4 结论

本文利用化学计量学方法对江西省烟叶样品的光谱数据进行处理并确定了定量模型的相关参数,最终建立了用于江西烤烟淀粉含量的近红外定量分析模型,该模型的相关系数达到0.9652,校正均方根误差为0.407,预测均方根误差为0.490,外部样品验证通过率达到95%以上,预测效果良好。该方法相比于传统的连续流动分析法具有操作简单、检测快速、成本低廉的优势,可以较为准确地检测江西省烟叶中的淀粉含量,具有很强的实用价值。

参考文献(References):

[1] 严衍禄.近红外光谱分析基础与应用[M].北京:中国轻工业出版社,2005.

YAN Y L.Analysis basis and technique for near-infrared spectra[M].Beijing:Chinese Light Industry Press,2005.

[2] LOPEZ A, ARAZURI S, GARCIA I, MANGADO J, JAREN C.A review of the application of near-infrared spectroscopy for the analysis of potatoes[J].Journal of Agricultural and Food Chemistry,2013,61:5413-5424.doi:10.1021/jf401292j.

[3] DING X X, NI Y N, KOKOT S.NIR spectroscopy and chemometrics for the discrimination of pure, powdered purple sweet potatoes and their samples adulterated with the white sweet potato flour[J].Chemometrics and Intelligent Laboratory Systems, 2015,144:17-23.doi:10.1016/j.chemolab.2015.03.004.

[4] LI Y H,ZOU X B,SHEN T T,SHI J Y,ZHAO J W,MEL H,Determination of geographical origin and anthocyanin content of Black Goji Berry(Lycium ruthenicum Murr.) using near-infrared spectroscopy and chemometrics[J].Food Analytical Methods, 2017,10(4):1034-1044.doi:10.1007/s12161-016-0666-4.

[5] ZHANG Y Y,NOCK J F,SHOFFE Y,WATKINS C.Non-destructive prediction of soluble solids and dry matter contents in eight apple cultivars using near-infrared spectroscopy[J].Postharvest Biology and Technology, 2019,151:111-118.doi:10.1016/j.postharvbio.2019.01.009.

[6] KRÄHMER A,ENGEL A,KADOW D,ALI N,UMAHARAN P,KROH L W,SCHULZ H.Fast and neat-determination of biochemical quality parameters in cocoa using near infrared spectroscopy[J].Food Chemistry, 2015,181:152-159.doi:10.1016/j.foodchem.2015.02.084.

[7] XU L,SHI W,CAI C B, ZHONG W, TU K.Rapid and nondestructive detection of multiple adulterants in kudzu starch by near infrared(NIR) spectroscopy and chemometrics[J].LWT-Food Science and Technology, 2015,61:590-595.doi:10.1016/j.lwt.2014.12.002.

[8] ÁVILA S,HORNUNG P S,TEIXEIRA G L,BEUX M R,LAZZAROTTO M,RIBANI R H.A chemometric approach for moisture control in stingless bee honey using near infrared spectroscopy[J].Journal of Near Infrared Spectroscopy, 2018,26(6):379-388.doi:10.1177/0967033518805254.

[9] GUO Y,DING X X,NI Y N.The combination of NIR spectroscopy and HPLC chromatography for differentiating lotus seed cultivars and quantitative prediction of four main constituents in lotus with the aid of chemometrics[J].Analytical Methods,2017,9(45):6420-6429.doi:10.1039/C7AY02021J.

[10] 刘襄河,郑丽璇,郑丽勉,欧成成,叶超霞,王安利.双波长法测定常用淀粉原料中直链淀粉、支链淀粉及总淀粉含量[J].广东农业科学,2013,40(18):97-100.doi:10.16768/j.issn.1004-874X.2013.18.010.

LIU X H,ZHENG L X,ZHENG L M,OU C C,YE C X,WANG A L.Determination of amylose and amylopectin in the commonly used starch materials by dualwavelength spectrophotometry[J].Guangdong Agricultural Sciences,2013,40(18):97-100.doi:10.16768/j.issn.1004-874X.2013.18.010.

[11] 谢剑平.烟草与烟气化学成分[M].北京:化学工业出版社,2010.

XIE J P.Tobacco and smoke chemical composition[M].Beijing:Chemical Industry Press,2010.

[12] YC/T 216-2013 烟草及烟草制品 淀粉的测定 连续流动法[S].YC/T 216-2013 Tobacco and Tobacco Products-Determination of starch-Continuous flow method[S].

[13] 董维杰,张忠锋,窦玉青,赵维,段苏珍,毛新新,刘亚军,初晓鹏.烤烟烟叶淀粉含量影响因素及其与烟叶质量关系研究进展[J].广东农业科学,2015,42(8):11-16.doi:10.16768/j.issn.1004-874X.2015.08.018.

DONG W J,ZHANG Z F, DOU Y Q,ZHAO W,DUAN S Z,MAO X X, LIU Y J,CHU X P.Research on influencing factors of flue-cured tobacco starch content and its relationship with tobacco leaf quality[J].Guangdong Agricultural Sciences, 2015,42(8):11-16.doi:10.16768/j.issn.1004-874X.2015.08.018.

[14] 王瑞新.烟草化学[M].北京:中国农业出版社,2003:26-29.WANG R X.Tobacco chemistry[M].Beijing: China Agriculture Press, 2003:26-29.

[15] 徐雪芹,陈志燕,曾德芬,王维刚,周晓.近红外光谱技术在烟草成分分析中的应用进展[J].广东农业科学,2009(10):165-168.doi:10.16768/j.issn.1004-874X.2009.10.032.

XU X Q, CHEN Z Y, ZENG D F, WANG W G, ZHOU X.Development of near-infrared spectroscopic techniques in the analysis of chemical composition of tobacco[J].Guangdong Agricultural Sciences, 2009(10):165-168.doi:10.16768/j.issn.1004-874X.2009.10.032.

[16] 申钦鹏,张涛,刘春波,何沛,王昆淼,杨光宇,刘志华.近红外光谱定量分析技术在烟草和烟气化学成分分析中的研究进展[J].广东农业科学 ,2015,42(4):77-85.doi:10.16768/j.issn.1004-874X.2015.04.006.

SHEN Q P, ZHANG T,LIU C B,HE P, WANG K M,YANG G Y,LIU Z H.Research advances in application of quantitative analysis method of near infrared spectroscopy in chemical components of tobacco and cigarette smoke[J].Guangdong Agricultural Sciences, 2015,42(4):77-85.doi:10.16768/j.issn.1004-874X.2015.04.006.

[17] 张翼,杨征宇,葛炯,刘太昂,张浩博,蔡峰,束茹欣.近红外分析技术在烟草中的应用[J].计算机与应用化学,2016,33(2):251-254.doi: 10.16866/j.com.app.chem201602026.

ZHANG Y, YANG Z Y, GE J, LIU T A, ZHANG H B, CAI F, SHU R X.The application of near-infrared spectroscopy in tobacco[J].Computers and Applied Chemistry,2016,33(2):251-254.doi: 10.16866/j.com.app.chem201602026.

[18] 李跑,马雁军,马莉,杨玉清,杜国荣.基于近红外漫反射光谱和化学计量学方法的晒红烟常规化学指标的快速测定[J].湖南农业大学学报(自然科学版),2018,44(3):251-255.doi:10.13331/j.cnki.jhau.2018.03.005.

LI P, MA Y J, MA L, YANG Y Q, DU G R.Rapid determination of routine chemical index in dark sun-cured tobacco by near infrared diffuse reflectance spectroscopy and chemometrics methods[J].Journal of Hunan Agricultural University (Natural Sciences),2018,44(3):251-255.doi:10.13331/j.cnki.jhau.2018.03.005.

[19] YC/T 31-1996 烟草及烟草制品 试样的制备和水分测定烘箱法[S].YC/T 31-1996.Tobacco and Tobacco Products- Preparation of Test Sample and Determination of Water Content-Oven Method[S].

[20] BARNES R J, DHANOA M S, LISTER S J.Standard normal variate transformation and De-trending of near-infrared diffuse reflectance spectra[J].Applied Spectroscopy, 1989, 43:772-777.doi:10.1366/0003702894202201.

[21] XU C J, LIANG Y Z, CHAU F T, HEYDEN Y V.Pretreatments of chromatographic fingerprints for quality control of herbal medicines [J].Journal of Chromatography A, 2006, 1134: 253-259.doi:10.1016/j.chroma.2006.08.060.

[22] 倪永年.化学计量学在分析化学中的应用[M].北京:科学出版社,2004.

NI Y N.The application of chemometrics in analytical chemistry[M].Beijing: Science Press, 2004.

[23] CHATTERJEE S, HADI A S.INFLUENTIAL OBSERVATIONS.High leverage points, and outliers in linear regression[J].Statistical Science, 1986, 1:379-416.doi:10.2307/2245484.

[24] RAGNO G, VETUSCHI C, RISOLI A, IOELE G.Application of a classical least-squares regression method to the assay of 1,4-dihydropyridine antihypertensives and their photoproducts[J].Talanta, 2003,59(2):375-382.doi:10.1016/S0039-9140(02)00526-X.

[25] GROSSMAN Y L, USTIN S L, JACQUEMOUD S, SANDERSON E W, SCHMUCK G, VERDEBOUT J.Critique of stepwise multiple linear regression for the extraction of leaf biochemistry information from leaf reflectance data[J].Remote Sensing of Environment,1996,56(3):182-193.doi:10.1016/0034-4257(95)00235-9.

[26] ÖZKALE M R, KURAN Ö.Principal components regression and r-k class predictions in linear mixed models[J].Linear Algebra and its Applications, 2018,543:173-204.doiI:10.1016/j.laa.2018.01.001.

[27] LI H, YOU S J, ZHANG H, ZHENG W D, LEE W L, YE T Z, ZOU L J.Analyzing the impact of heating emissions on air quality index based on principal component regression[J].Journal of Cleaner Production,2018,171:1577-1592.doi:10.1016/j.jclepro.2017.10.106.

[28] STRAUS J, SKOGESTAD S.A new termination criterion for sampling for surrogate model generation using partial least squares regression[J].Computers & Chemical Engineering,2019,121:75-85.doi:10.1016/j.compchemeng.2018.10.008.

[29] DU C Z, DAI S Y, QIAO Y J, WU Z S.Error propagation of partial least squares for parameters optimization in NIR modeling[J].Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2018, 192:244-250.doi:10.1016/j.saa.2017.10.069.

Establishment of Near-infrared Quantitative Model for Starch Content in Flue-cured Tobacco of Jiangxi Province

LI Zhuo1, ZHANG Qi2, ZHANG Xiongfeng1, ZHANG Qiming1, HE Kuanxin1
(1.Tobacco Science Institute of Jiangxi Province, Nanchang 330000 China;2.Luzhou Environmental Monitoring Center, Luzhou 646000,China)

Abstract:【Objective】 The traditional iodine colorimetry method requires complex and time-consuming pretreatment and experimental preparation.The near-infrared detection method not only has the advantages of simple operation and rapid detection, but also does not consume reagents, samples and standards, which greatly reduces the detection cost.This paper aimed to establish a near-infrared detection model suitable for the starch in Jiangxi flue-cured tobacco based on Jiangxi flue-cured tobacco samples.【Method】 The near-infrared spectra and corresponding continuous flowing analyzer detection data(iodine colorimetry) of 650 flue-cured tobacco samples from 21 districts and counties in Jiangxi Province were collected, then the detection model was established by using different regression methods and data processing methods with the spectral data and chemical analysis data in one-to-one correspondence, and the best model parameters were determined by comparing their root mean square(RMS) errors and correlation coefficients.【Result】 A starch content prediction model suitable for Jiangxi flue-cured tobacco was established.The RMS errors of calibration and the prediction were 0.407 and 0.490 respectively, and the correlation coefficient was 96.52%.The model was verified by external samples and the errors of 95% of the samples were within 10%.【Conclusion】 The model reduced the detection cost and improved the analysis efficiency, which could be used for the rapid detection of the starch content in Jiangxi fluecured tobacco samples and replace the traditional iodine colorimety method to a certain extent .

Key words: Jiangxi flue-cured tobacco; near infrared spectroscopy; quantitative analysis; chemometrics; starch

中图分类号:S572;O657.33

文献标志码:A

文章编号:1004-874X(2019)03-0135-09

李卓,张棋,张雄峰,张启明,何宽信.江西烤烟淀粉近红外检测模型的建立,2019,46(3):135-143.

收稿日期:2019-01-22

基金项目:江西省烟草专卖局重点项目(赣烟201301006)

作者简介:李卓(1989—),男,硕士,助理工程师,研究方向为分析化学和化学计量学,E-mail:lizhuo5503208067@163.com

通信作者:何宽信(1965—),男,高级农艺师,研究方向为烟草生产技术,E-mail:hekuanxin@163.com

(责任编辑 白雪娜)