自动表面检测分类器的调整-技术圈

点击下方卡片，关注“新机器视觉”公众号

视觉/图像重磅干货，第一时间送达

转自：世界金属导报

1 前言

随着计算机硬件和软件的不断进步，自动表面检测系统（ASIS）已广泛应用在许多扁钢工艺，包括热轧、酸洗、镀锡、热镀锌（HDG）等表面质量控制和质量保证。然而，这些商业系统在图像数据处理、模式识别算法和软件图形用户界面（GUI）方面差别非常大。

AM/NS Calvert公司在2008年安装了ISRA Parsytec ASIS。本文主要介绍了为提升ASIS分类性能所做的ASIS分类器调整工作。首先对AM/NS Calvert #3HDGL（热镀锌线）的Parsytec ASIS配置做了总概述，然后展示了决策树型调试方法，以Calvert #3HDGL亮面镀锌（GI-BF）材料为例，介绍了使用分类器调试器的目标和程序。

2 分类器调试方法和规程

2.1AM/NS Calvert #3HDGL的ASIS配置

ASIS是基于摄像机的视觉系统，能在带钢运行时进行表面缺陷在线检测、定位和分类。该系统安装在Calvert #3HDGL的涂层线的末端，然后再安装侧边修边机。它由每侧的亮面和暗面视觉组成，每个视角有两个4K行扫描摄像机。这条线的最大运行速度是260m/min。这样形成了0.25 mm × 0.5 mm/像素的图像分辨率。

2.2分类器调试方法

一种通用的ASIS调试和性能优化方法，如图1所示。它包括缺陷检测调试和分类调试任务。这两个任务都需要指定系统的业务目标。系统使用的业务目标会指导系统如何与工艺信息共同配置和调试。经初步调整后，系统性能可以通过线圈检查图和用户反馈来评估。然后将信息输入系统进行微调，指导系统性能达到最佳状态。调试链条是一个闭环，通常需要两到三个循环。为了达到最佳系统性能，需要两方面的知识，一是质量和工艺方面的知识，另一个是ASIS调试方面的知识。

Calvert #3HDGL一直是生产汽车和一些工业非汽车产品的镀锌（GI）和镀层退火（GA）材料。系统主要用做与表面缺陷和工艺故障排除相关的质量保证辅助工具。调试过程中，作者咨询了精整线质量专家及生产线检测人员，收集系统使用要求，得到每日退卷报告，起草含工艺参数的生产清单，接收系统使用反馈等。这是调试系统获得最佳性能最关键的任务。

2.3分类器调试目标和程序

对某缺陷的分类性能用两个参数评估：准确率和置信度。准确率定义了分类器正确分类缺陷的百分比。置信率定义了某缺陷分类样本中真实样本数的百分比。为满足系统使用的业务需求，分类调试目标是调试分类器，使其能更精确分类真实的总体的和重要的缺陷（有更高的准确率）并减少误报缺陷（尽可能高的分类置信度）。相比错误分类重要缺陷，总体缺陷和真实缺陷之间的混淆，包括重要的和次要的缺陷，更易被接受。

分类器优化过程包括构建缺陷库、选择缺陷特征、设置决策树参数并创建分类器模型及评估分类器性能和分类器微调（见图2）。根据分类器测试结果，满足分类器调试目标，进一步改进分类器可以通过丰富缺陷库、选择最优特征集和/或设置不同分类器参数来实现。整个过程将重复多次，直到达到满意的分类结果。

2.4构建缺陷库

创建一个好的分类器最重要的步骤之一是构建一个缺陷库，它可以代表正常生产环境下重要的表面缺陷和伪缺陷。构建缺陷库时，已基于之前的研究和经验制定了最佳实践。这些最佳实践是：1）将类似的缺陷归为一类；2）尽量限制总类别（10-15更好，但20-30也不错）；3）每种缺陷类别获得大致相等的样本数，且最大与最小组/类的比例不超过5比1；4）尽量使每一类缺陷具有相似的外观多样性，避免在同一类中收集相同的缺陷图像，也要避免在两个不同类别中从一个类别中收集相同或相似的缺陷图像；5）尽量不按照缺陷的严重程度归类；6）不收集特征值无法计算的缺陷图像；7）不收集有预先规则分类器分类的缺陷；8）不将非正常工艺中收集的图像归入缺陷库。

ISRA Parsytec系统包含可供用户轻松完成整个分类器调优过程的软件（见图2）。它具有多重功能，可以简化分类器创建过程，使用户界面对多个钢卷中某些确定缺陷实现快速图像收集。它也提供了相似性功能，帮助收集特定图像，并提供了用户友好界面，有助于用户将缺陷图像快速分类。此外，通过该软件可以更方便地获取和设置分类器参数。

基于Calvert系统的配置和系统设置，建立了四个缺陷库：GI-BF、GI暗面（GI-DF）、GA亮面（GA-BF）、GA暗面（GA-DF）。缺陷库的统计数据如表1所示。

2.5选择缺陷特性

构建分类器的第二步是选择缺陷特征。ISRA Parsytec系统提供多于800个缺陷特征。有趣的是，大量的特征是否会引发分类器过拟合？这意味着对未预见/新的缺陷图像数据泛化能力较差。本研究旨在验证是否决策树分类器特征数需要减少。特征数减少含两部分：特征选择和特征提取。特征选择试图找到变量原始集的子集或特征，来获得更小的子集，可用于建模问题。它涉及三种方式，即筛选、包装或嵌入。特征提取将高维空间中的数据降低为低维空间。降维方法有主成分分析（PCA）、线性判别分析（LDA）和广义判别分析（GDA）。本节研究了基于PCA特征的降维算法及其对最终分类器性能的影响。

PCA基于投影的方法，通过将数据投影到一组正交轴上实现数据转换。它找到了原始变量的最佳线性组合，使方差或沿新变量的分布得到优化。本研究中使用了最初改进的GI-BF缺陷库。利用ISRA Parsytec ASIS软件提取缺陷库的缺陷特征。这些特征被输入到Python开发环境下的PCA函数。选用了最佳的274个方差等于或大于99%的部件/特征做分类器性能测试。为了比较前274个特征数与原始分类器的有效性，使用相同的GI-BF缺陷库创建了具有274个特征的分类器。表2和表3分别显示了使用新检测图像数据（四个半暴露的GI-BF钢卷共914个缺陷）的两个分类器测试结果。此外注意到，使用超过800个特征的分类器训练时间比使用274个特征的分类器时间长5倍。结果表明，采用基于PCA特征降维算法的分类器与采用完整特征集的分类器性能相似，还可以预计到，分类新的缺陷需要的时间更少。如果系统配置参数具有更高的检测灵敏度，可以实时处理大量数据，这将非常有用。

2.6设置分类器参数并构建分类器

分类器调试的第三步是配置分类器参数并创建分类器模型。ISRA Parsytec系统提供了一种决策树分类器算法，它应用了修剪技术和boosting算法以获得良好的分类器泛化能力。Boosting参数是并发分类器的总数，默认值是10。用户能输入的最大值是12。选择的数值越大，处理时间越长，分类器泛化能力就越强。这个例子中，数值为12。有两个修剪参数：修剪前和修剪后。这两个参数用的是默认值。“投票参数”在单决策树分类器流程中应用。较小数量的投票参数可以减少未分类缺陷。“置信度”参数应用于不同的并发分类器。较小这个值还可以减少未分类缺陷。在缺陷样本不足的初始分类器调优阶段，这两个参数设置为默认值0.6。缺陷库充分开发后，这两个参数可以减小到0.35，从而减少未分类缺陷总数。

设置好分类器参数后，就可以自动训练分类器。但是第一个分类器通常不会上线，需要进一步的微调。

2.7分类性能评估和分类器微调

分类器微调是一个重复的过程（见图2）。第一个分类器创建后，可以针对训练缺陷库对其进行测试。分类器性能的混淆矩阵可以用来指导缺陷库的细化。列举混淆矩阵的一个例子，C/T表示分配的类别(由专家分类)相对于分类器分的类别。利用第一类分类器的分类结果，可以在严重缺陷和重要缺陷之间检查不确定缺陷，并将外观类似的缺陷归为一类；通过观察未分类缺陷的外观检查，可以检查同一类缺陷中是否有重复样本，以及缺陷分类中代表性缺陷是否较少。验证过程旨在为改进的分类器进一步提高缺陷库质量。如此，分类器微调需要几个循环周期，并在在线系统中使用。

分类器及其缺陷库离线微调后，如果分类器结果令人满意，可以将其升级到在线系统中。通过收集未分类和分类错误的重要缺陷，并将他们重新分类到缺陷库中，可能需要更多的循环进一步提高分类器性能。

3 结论和讨论

本文提出了一种基于决策树的分类器优化方法和步骤，包括缺点库构建最佳实践、特征选择、分类器参数设置和分类器性能评估及其微调。以在Calvert#3HDGL使用GI-BF分类器构建过程为例，它强调了缺陷库构建的最佳实践。在特征选择过程中，研究了基于PCA的特征降维方法及其对最终分类器性能的影响。可以得出结论，与使用整个特征集相比，降维特征集（274个特征）可以在减少分类器训练速度和可能降低在线分类器执行速度的情况下实现类似的分类器性能。

虽然建立一个具有代表性的缺陷库是一项繁琐且耗时的工作，但该领域未来的研究课题可能是开发创建具有代表性伪缺陷图像的方法和算法、缺陷自动分类以及分类器更高的泛化能力。（史峰鹰）

本文摘选自本报2021年第20期B16部分内容，若要详细了解更多相关行业和技术信息，请关注本报纸质报纸每期A版和B版内容，或者登陆本报手机APP客户端，或者本报网站新址：http://www.worldmetals.com.cn/电子报阅读全文。转载请注明出处。

仅用于学术分享，版权属于原作者。

若有侵权，请联系微信号:yiyang-sy 删除或修改！

—THE END—