醋醋百科网

Good Luck To You!

无人机高光谱马铃薯Y病毒检测3_马铃薯病毒检测方法

撸陆知识小课堂,每周都有干货内容等着大家!

2.2.2. ELISA 检测

对每株植物单独进行 ELISA(酶联免疫吸附试验)以追踪其 PVY 状态。ELISA 是一种定性血清学检测方法,用于检测马铃薯叶片中的 PVY 。从田间采集叶片样本,并记录植物在田块中的位置。然后使用钻床在压榨托盘中以 4000 psi 的压力将叶片样本提取到含有叠氮化钠作为防腐剂的 blotto 缓冲液中。该溶液用于稀释酶偶联物,然后将其添加到先前准备好的免疫捕获板上。这些板用 IgG 抗体包被并封闭以防止非特异性结合。然后将添加到板中的样品在 4 °C 下孵育过夜。用 PBS(磷酸盐缓冲溶液)Tween 将板洗涤四次,然后添加酶偶联抗体。然后将培养皿再次置于37°C下孵育1-4小时,然后用PBS Tween洗涤三次。加入对硝基苯基磷酸盐底物,当对照出现合适的颜色时(30-60分钟后)读取培养皿的读数。此方法可确保PVY的检测,并且对于创建我们数据集的地面真实标签至关重要。


2.2.3. 标签

我们以 ELISA 检测结果作为参考,对高光谱图像进行了像素级标记。使用计算机视觉标注工具 (CVAT) 对数据集进行半手动标注,将像素级标注分配给背景、感染、未感染、耐药和未知类别。标注数据示例如图 5c所示。请注意,图 3中的图像是使用图 1作为田地布局的参考进行标注的。


2.3. 机器学习和深度学习

高光谱数据集用于训练和评估几种标准机器学习 (ML) 方法,包括传统方法和深度学习 (DL) 方法。本研究中使用的方法包括支持向量机 (SVM)、决策树、k 最近邻 (KNN)、逻辑回归、神经网络 (NN) 和卷积神经网络 (CNN)。本研究的主要目标并非开发新的 ML-DL 方法,而是在具有挑战性的实际应用环境——基于无人机在旷场条件下对 PVY 进行高光谱检测——中严格评估成熟模型的性能。


2.4. 超参数优化

超参数优化对于提升机器学习和深度学习模型的性能和泛化能力至关重要。模型参数在训练过程中学习;然而,为了获得最佳模型性能,超参数在训练阶段之前就已设置好。测试多个超参数设置以最小化损失函数的过程称为超参数优化。对于一组超参数γ,损失函数 ( ( ,), )左(f(x,γ),y)必须最小化以获得优化的超参数集′γ′。 这里,( ,)f(x,γ)是目标函数,y是需要预测的真实类别。

超参数会根据所用模型的不同而变化,例如核类型、学习器数量、学习率、批量大小、层数等等。存在几种用于超参数调整的优化技术:随机搜索、网格搜索和贝叶斯优化是广泛使用的方法。随机搜索从超参数空间中随机采样,而网格搜索会评估所有可能的超参数组合,这在计算上可能很昂贵。另一方面,贝叶斯优化是一种基于贝叶斯定理的概率方法,可以在超参数空间中进行有效搜索。该方法优于传统技术,尤其是在高维设置下。


2.5. 评估指标

我们使用四个指标来评估所有模型的性能:总体准确度、精确度、召回率和 F1 分数。这些指标可以深入了解模型的预测能力,并且在分类任务中很有用 ,例如预测马铃薯中是否存在 PVY。准确度是指正确预测的观测值与总观测值的比率。准确度是一个直观的指标;然而,它可能并不可靠,尤其是在像我们这样的不平衡数据集中,感染的观测值比健康的观测值少得多。在这种情况下,精确度和召回率这两个指标提供了有价值的见解。精确度是所有预测的阳性观测值中真正阳性观测值的比例,召回率是所有实际阳性观测值中真正阳性观测值的比例。当假阳性的代价高昂时,精确度至关重要;当无法识别所有阳性观测值代价高昂时,召回率至关重要 。精确度和召回率也分别称为置信度和灵敏度。在我们的案例中,高召回率是理想的,因为我们的目标是正确识别受 PVY 感染的植物。第四个指标 F1 分数是精确度和召回率的调和平均值,它是一个平衡的指标,同时考虑了假阳性和假阴性。所有四个指标的范围都是从 0 到 1,所有指标的高分表明模型性能良好。

这里指的是正确预测的正观测值,指的是正确预测的负面观察结果,指的是错误预测的正观测值,并且指错误预测的负面观测值。


2.6. 波段选择

使用高维高光谱图像训练模型的计算成本非常高。然而,识别最相关的光谱波段有助于有效分类并降低模型训练的计算成本。如果能够识别出最相关的波段,就可以开发出一种比高光谱相机更便宜的新型多光谱相机。训练具有数百个高光谱波段的模型可能会受到维数灾难的影响,并降低模型性能。波段选择或特征选择技术通常分为三大类:滤波器类型、包装器类型和嵌入式类型。滤波器类型选择方法依赖于特征相关性和方差等统计指标来评估特征的重要性。这种方法与模型无关,被视为数据预处理阶段的一部分。包装器类型选择方法依赖于模型,并使用特征子集来评估模型性能。使用停止标准(例如均方误差或准确率)来终止模型训练。嵌入式方法将特征选择融入到模型训练阶段,让模型在训练过程中学习特征重要性。


2.7. 工作流程

需要校准和清理来自高光谱相机的原始数据,以消除大气影响并使数据独立于特定的相机和光照条件。首先,使用方程 ( 1 ) 进行辐射度校准,然后使用方程 ( 2 ) 进行反射率校准。然后使用方程 ( 3 ) 应用 Savitzky-Golay 平滑滤波器。某些波段非常嘈杂,需要将其移除以清理数据集,从而训练 ML/DL 算法。然后,我们对数据集进行归一化。使用方程 ( 4 ) 计算每幅图像的 NDVI,该方程用于基于阈值创建马铃薯掩模。我们使用此掩模仅获取马铃薯叶子,然后使用方程 ( 5 ) 对其进行下采样以及地面实况标签。我们的数据是在非常低的 AGL 和小块田地上收集的,因此我们进行了下采样以模拟更高的 AGL,这对于较大的田地来说更为现实。现在,数据已准备好进行 ML/DL 分析,我们将使用2.3 节中提到的算法进行实验。图 9展示了准备数据集进行分析的总体工作流程。此处提到的预处理步骤可参见图 4。

图 9. 工作流程图展示了准备 ML/DL 分析数据的步骤。有关预处理步骤

03 o 结果

3.1. 数据集

如2.1.3 节所述,我们有 19 张可用的高光谱图像,其中 15 张用于模型训练,4 张用于测试。有些图像不包含任何受感染的植物,因此精心挑选了 4 张图像来测试模型。我们正在进行像素级检测,在进行预处理、清理和下采样之后,我们最终为所有图像获得了总共 23,844 个高光谱像素。其中,1794 个像素被标记为受感染,177 个受感染像素属于三张测试图像。另一个测试图像不包含任何受感染像素,这对于测试模型的置信度很有用。这给我们留下了 1617 个受感染像素用于训练和验证。为了创建一个平衡的训练数据集,我们从训练图像的健康像素池中随机挑选了 1617 个健康像素。表 2提供了数据集组成的详细分类,包括每个类和每个数据集分割的像素数。图 10显示了数据集中所有健康像素和感染像素的平均值。我们注意到可见光区域的光谱存在一些差异;然而,近红外区域看起来非常相似。这可能是由于植物之间水分含量差异较小造成的。请注意,此图中的光谱已归一化。

图 10. 已准备数据集中所有健康和感染像素的平均光谱。x轴表示波长(单位:纳米),y轴表示反射率百分比。

表 2. 本研究中使用的训练和测试数据集摘要,包括图像数量、降维采样高光谱像素、感染像素数量和类别分布。像素计数分为抗性地块和易感地块(总像素),并从易感子集中报告感染像素的数量。感染像素的比例是根据像素总数计算的。

3.2. 模型架构与优化

采用贝叶斯优化,最多进行 30 次目标函数评估,以微调各种模型的超参数。对于 SVM,确定的最佳超参数为框约束 860.726、核尺度 55.033 和高斯核函数。对于决策树模型,最佳超参数包括最小叶子大小 28、最大分割数设置为 3081 以及分割标准“GDI”。在 KNN 模型中,最佳参数为邻居数量 13 和距离度量“相关性”。逻辑回归得出的最优值是 lambda 为 0.0058 和一个岭(L2)正则化项。

开发了一个前馈神经网络 (FNN),其输入层与数据集的 223 个特征相匹配。该架构包含两个分别包含 128 个和 64 个单元的隐藏层,每个隐藏层后接一个 ReLU 激活函数;输出层则包含一个用于分类的 softmax 激活函数。此外,还构建了一个一维卷积神经网络 (1D-CNN)。该架构首先构建一个核大小为 3 的卷积层,然后进行批量归一化处理并添加一个 ReLU 激活函数。最后,使用一个步幅为 2 的最大池化层来降低维度,同时保留关键模式。最后,添加一个包含 64 个单元的全连接层并添加另一个 ReLU 激活函数。最后,添加一个包含 2 个单元(等于类别数量)的全连接层,最后添加一个用于预测的 softmax 层。 FNN 和 CNN 模型均使用 Adam 优化器进行 50 次训练,小批量大小为 32。所有模型均实施了 5 倍交叉验证策略(适用),以确保其稳健的性能评估。

记录了有无数据归一化情况下的训练运行时间,以评估每个模型的计算效率。设n表示训练样本数量,d表示输入特征数量(本例中为 223),i表示训练迭代次数或周期数(如适用)。支持向量机 (SVM) 的计算成本最高,在有数据归一化的情况下大约需要 821.17 秒,在无数据归一化的情况下大约需要 1129.09 秒,这与它的理论训练复杂度一致(2 +3)哦(n2d+n3)对于高斯核。决策树模型虽然本质上不太复杂,采用归一化需要 24.62 秒,不采用则需要 53.98 秒。K 最近邻 (KNN) 的训练复杂度可以忽略不计,但预测成本很高,采用归一化需要 136.06 秒,不采用则需要 121.06 秒。逻辑回归的特点是训练复杂度为线性 实现了中等运行时间,使用归一化时为 79.29 秒,不使用归一化时为 120.41 秒。前馈神经网络 (FNN) 和一维卷积神经网络 (1D-CNN) 均利用 Adam 优化器和小批量训练来提高效率。使用归一化时 FNN 完成训练耗时 48.39 秒,不使用归一化时为 45.12 秒,而 1D-CNN 分别需要 59.29 秒和 57.45 秒。这些结果表明,归一化通常会提高大多数模型的训练效率,特别是那些对特征缩放敏感的模型,并且神经模型尽管参数数量众多,但由于高效的基于梯度的优化,提供了具有竞争力的运行时间。实验在运行 Ubuntu 24.02.LTS 的机器上进行,配备 Intel Core i7-9700K CPU @ 3.60 GHz、64 GB RAM 和 NVIDIA GeForce RTX 2070 GPU。


3.3. 模型性能

表 3、表 4和表 5以及图11总结了支持向量机 (SVM)、决策树 (DT)、K 最近邻 (KNN)、逻辑回归 (LR)、前馈神经网络 (FNN) 和卷积神经网络 (CNN) 的性能,并在不同的测试条件下进行了评估,以评估它们从高光谱无人机图像中检测 PVY 感染植物的有效性。所有模型均使用易感马铃薯品种的像素级数据进行训练,并在不同场景下进行测试,以评估分类准确性、灵敏度和泛化能力。报告了使用和不使用光谱归一化两种方法的结果。

图 11. 左图显示了本文提出的混淆矩阵所遵循的通用结构。TP 代表真阳性 (True Positive),FP 代表假阳性 (False Positive),FN 代表假阴性 (False Negative),TN 代表真阴性 (True Negative)。矩阵中的行代表预测值,列代表实际值。( a ) 支持向量机、( b ) 决策树、( c ) K 最近邻、( d ) 逻辑回归、( e ) 前馈神经网络和 ( f ) 卷积神经网络的混淆矩阵。各个模型在未见敏感测试集上报告了这些混淆矩阵,并进行了归一化。


表 3. 支持向量机 (SVM)、决策树 (DT)、K 最近邻 (KNN)、逻辑回归 (LR)、前馈神经网络 (FNN) 和卷积神经网络 (CNN) 在测试集上的分类结果。该模型在易受影响数据上分别进行了归一化和未归一化的训练和测试。评估的性能指标包括准确率 (Acc)、精确率 (Prec)、召回率 (Rec) 和 F1 分数 (F1)。每个指标的最佳结果以粗体显示。

表 4. 支持向量机 (SVM)、决策树 (DT)、K 最近邻 (KNN)、逻辑回归 (LR)、前馈神经网络 (FNN) 和卷积神经网络 (CNN) 在测试集上的分类结果。该模型分别在经过和未经过归一化的感病数据上进行训练,并在抗病和感病植物组合数据集上进行测试。评估的性能指标包括准确率 (Acc)、精确率 (Prec)、召回率 (Rec) 和 F1 得分 (F1)。每个指标的最佳结果以粗体显示。

表 5. 支持向量机 (SVM)、决策树 (DT)、K 最近邻 (KNN)、逻辑回归 (LR)、前馈神经网络 (FNN) 和卷积神经网络 (CNN) 的分类结果,测试集仅包含抗病品种,不含感染样本。模型分别使用敏感数据进行训练,包括使用和不使用归一化的数据。由于测试集中不含感染样本,因此理想情况下将所有像素归类为健康。报告了准确率 (Acc)。此处省略了精确率 (Prec)、召回率 (Rec) 和 F1 得分,因为所有模型的真阳性 (TP) 均为 0,导致召回率和 F1 值未定义,精确率等于 0。

预知后事 请看下回

信撸陆 不迷路

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言