基于BPSO和SVM的烤烟烟叶图像特征选择方法研究
摘要:利用图像特征对烟叶进行分级时,提出了一种对烟叶图像特征进行有效选择的新方法——利用二进制粒子群算法联合SVM模型自适应地选择对烟叶分级影响较大的特征,剔除对分级影响较小或相互间有关联的某些特征,并利用Adaboost和RBF分类器进行验证。结果表明,用SVM分类器时,用被选特征比输入全部特征具有更好的分级正确率;对于相同的分类器,利用二进制粒子群和SVM算法自适应筛选后的特征比输入全部特征具有更好的分级吻合率。
关键词:烟叶;二进制粒子群;支持向量机;特征选择
中图分类号:TP181 文献标识码:A 文章编号:0439-8114(2015)02-0449-04
DOI:10.14088/j.cnki.issn0439-8114.2015.02.050
Methods of Selecting Image Feature of Tobacco Leaf Based
on BPSO Combined with SVM
YANG Fan, SHEN Jin-yuan
(School of Information Engineer, Zhengzhou University, Zhengzhou 450001, China)
Abstract: A method combining binary particle swarm optimization(BPSO) with SVM algorithm was proposed to select the important features for grading tobacco. Adaboost and RBF with the features selection was used to verify the conclusion. Results showed that the accuracy of SVM was improved by the new method. The adaptive feature selection of BPSO combined with SVM improved the accuracy of the tobacco grading with same model.
Key words: tobacco leaf; BPSO; SVM; feature selection
目前,我国烟叶分级主要还是依靠人工进行分级,这种方法存在着主观性强、效率低等缺点,因此近年来研究人员在烟叶智能分级方面进行了研究。烟叶的智能识别方法主要有利用烟叶的化学特征、光谱特征和图像特征。其中,利用图像特征对烟叶进行分级有着对烟叶无损、设备简单、效率较高等优点,能够解决人工检测方法的各种缺点,因此有着广阔的应用前景,研究人员在这一领域进行了大量的研究[1-3]。在图像特征的基础上,人们使用了多种分类器对烟叶进行分级,包括支持向量机[4,5]、神经网络[6-8]、主成分分析[9]、模糊识别[10]、粗糙集[11]等方法。但是在之前的研究中通常采用获得的所有图像特征进行训练和分类,而一些特征如长、宽、长宽比、面积、周长等之间存在着很大的相关性,同时由于特征数目多使得分级模型复杂、计算量大,不仅造成训练模型所需时间长,而且分级时所需要的时间也长,这对于收购烟叶的实时要求是非常不利的。另外,特征数目多、模型复杂,建立训练模型时所需要寻找的参数多,参数之间又互相影响,这可能影响到最佳参数的选择,因而影响到分级模型的正确分级率。因此对特征进行有效筛选,减少特征数目对于烟叶自动分级是必要而有意义的[12,13]。本研究提出一种与结果直接相关的特征选择方法,在去除那些相关性较大的特征改善烟叶图像识别效果的同时,还可以减短分类器训练和分级时间而加快分级速度。
粒子群算法(PSO)属于进化算法的一种,这种算法以其实现容易、精度高、收敛快等特点引起了学术界的重视,并且在解决实际问题中展示了其优越性,其中二进制粒子群(BPSO)是将PSO算法离散化的一种改进算法。支持向量机(SVM)是一种经典的模式识别方法,其在解决小样本、非线性及高维模式识别中表现出许多特有的优势,也曾被应用于烟叶的分类中。本研究使用BPSO并联合SVM算法对烟叶的图像特征进行选择,并分别使用SVM、RBF和Adaboost算法进行了验证。
1 烤烟烟叶特征提取
烟叶分级主要是对烟叶的部位、颜色、等级进行分类,其中部位为B(上部)、C(中部)、X(下部)3种,等级根据不同品质可能有3种或者4种,颜色分为F(柠檬黄)、L(橘黄)、R(红棕色)3种。在这3个部分的基础上,我国最新发布的烟叶分级标准将烤烟烟叶分为了42个等级。
本研究采用的烤烟烟叶图片为使用CCD摄像头在暗箱中拍摄获取的烟叶透射图像(图1),因为相比反射图片,透射图片能更好的体现厚度等特征。在对烟叶图像进行背景分割、降噪等一系列预处理后在对其进行特征提取,本研究提取8个外形特征:长、宽、长宽比、面积、周长、破损率、圆形度、矩形度;12个颜色特征:R、G、B和H、S、I的均值和方差;4个纹理特征:能量、惯性、相关性、熵。
2 基于BPSO和SVM的特征筛选
2.1 PSO算法
粒子群算法是1995年由Eberhart和Kennedy 提出的一种进化算法,来源于对鸟群捕食的行为研究。PSO初始化即为一个觅食的鸟群,其中每只鸟为一个随机粒子(随机解),每个初始粒子的位置都是随机的。由一个速度参数来决定它们位置变化的快慢,而每个粒子的位置优劣都由一个适应度值(Fitness value)来评价。在每一代中,整个族群找到的最优解被称为全局极值(gbest),每个粒子本身所找到的最优解被称为这个粒子的个体极值(pbest)。在每一代进化中,每个粒子通过跟踪gbest和pbest两个极值来不断更新自己和自己的速度,然后通过迭代找到最优解。