基于化学指标的烟叶产区正交偏最小二乘判别分析

http://img1.qikan.com.cn/qkimages/yckx/yckx201701/yckx20170116-1-l.jpghttp://img1.qikan.com.cn/qkimages/yckx/yckx201701/yckx20170116-2-l.jpg
  摘 要:为构建基于化学指标的不同产区烟叶的模式识别模型,收集2003—2007年5个年度四川、云南和福建3省份共计1262份烤烟样品的21种化学指标,并进行正交偏最小二乘判别分析(OPLS-DA)。结果表明,基于21种化学指标所构建的OPLS-DA模型显著可靠,模型参数R2X、R2Y和Q2值分别为0.429、0.702和0.627;模型提取出2个预测主成分,对四川、云南和福建3省未知烟样识别正确率分别为76.67%、93.33%和93.33%。基于化学指标的烟叶产区OPLS-DA模型,可以有效识别不同产区烟叶样品,筛选出各产区特征指标并解释产区间差异。
  关键词:烤烟;化学指标;正交偏最小二乘;判别分析
  中图分类号:TS41+1 文章编号:1007-5119(2017)01-0091-06 DOI:10.13496/j.issn.1007-5119.2017.01.016
  Abstract: In order to construct the pattern recognition model of tobacco producing areas based on chemical measurements, 21 chemical measurements from 1262 samples of flue-cured tobacco were collected from 2003 to 2007, and were used to construct a OPLS-DA model. The results showed that the OPLS-DA model was highly significant with the following model performance statistics (R2X=0.429, R2Y=0.702, Q2= 0.627). The OPLS-DA of the training set gave a model with two Y-predictive components, and gave the correct rate of 76.67%, 93.33% and 93.33% to distinguish samples from Sichuan, Yunnan and Fujian tobacco producing areas. The OPLS-DA model based on chemical measurements can recognize tobacco samples from different producing areas, and can be used in screening for biomarkers for different areas and providing interpretations for regional difference of tobacco samples.
  Keywords: flue-cured tobacco; chemical measurements; OPLS; discriminant analysis
  开发特色优质烟叶对于打造中式卷烟核心技术,提高中式卷烟市场竞争力具有重要意义。不同烟叶产区光照、降水、温度和土壤等生态条件差异较大,所生产的烟叶往往具有不同的品质和风格特征[1-4],连同品种和栽培措施的差异[5-6],形成了生产特色优质烟叶的客观条件。自“特色优质烟叶开发”作为《烟草行业中长期科技发展规划纲要(2006―2020年)》的重大专项实施以来,围绕烟叶品质与环境关系、烟叶品质区划相关研究颇多,包括相关[7]、聚类[8-9]、因子[10]、判别[11-14]、模糊数学[15]、灰色关联[16]、人工神经网络[17]等多种统计方法被运用。但由于各个化学指标间关系的不确定性与复杂性,导致这些统计方法很难系统性地建立烟叶的特征化学指标识别模型[18-19],或模型识别率低[18]。因此,本研究基于烟叶化学指标进行正交偏最小二乘判别分析(Orthogonal Partial Least Squares Regression Discriminant Analysis,OPLS-DA)构建不同产区烟叶的高效模式识别模型,探索不同产区烟叶之间的化学指标差异,并进行解释和预测分析,为辨别烟叶产地、理解和分析烟叶质量和風格特色的形成提供帮助和参考。
  1 材料与方法
  1.1 烟叶样品
  收集整理了“中国烟草科学技术数据库”[20]中2003—2007年5个年度四川、云南和福建3省份的全部烤烟样品信息,共计1262份,其中,四川278份、云南691份、福建293份。烟草品种包括K326、K346、NC82、翠碧1号、红花大金元、云烟85和云烟87。烟叶等级包括B2F、C2F、C3F和X2F。研究中,分别从3个省份各随机抽取30个烟样,构成含有90个烟样的检测集数据,用于验证模型的有效性。剩余的1172个烟样作为构建模型的训练集数据。
  1.2 烟叶化学成分指标
  烟叶化学指标数据来源于“中国烟草科学技术数据库”,指标共21种,包括:水溶性总糖、总植物碱、蛋白质、总氮、还原糖、总挥发酸、总挥发碱、氮碱比、糖碱比、钾氯比、石油醚提取物总量、醚提取物中性总量、醚提取物酸性总量、醚提取物碱性总量、pH、钾、氯、硝酸根、硫酸根、灰分和水溶性灰分碱度。
  1.3 正交偏最小二乘分析
  偏最小二乘判别(Partial Least Squares Regression Discriminant Analysis, PLS-DA)是基于PLS回归方法,主要反映预测变量和因变量之间的线性关系,是一种有监督分类方法。它基于X变量构建Y变量的预测模型,并根据X变量新的预测集数据预测Y变量。其公式如下: