基于RGB和深度双模态的温室番茄图像语义分割模型

S126; 图像语义分割作为计算机视觉领域的重要技术,已经被广泛用于设施环境下的植物表型检测、机器人采摘、设施场景解析等领域.由于温室环境下未成熟番茄果实与其茎叶之间具有相似颜色,会导致图像分割精度不高等问题.该研究提出一种基于混合Transformer编码器的"RGB+深度"(RGBD)双模态语义分割模型DFST(depth-fusion semantic transformer),试验在真实温室光照情况下获得深度图像,对深度图像做HHA编码并结合彩色图像输入模型进行训练,经过HHA编码的深度图像可以作为一种辅助模态与RGB图像进行融合并进行特征提取,利用轻量化的多层感知...

Full description

Saved in:
Bibliographic Details
Published in农业工程学报 Vol. 40; no. 2; pp. 295 - 306
Main Authors 张羽丰, 杨景, 邓寒冰, 周云成, 苗腾
Format Journal Article
LanguageChinese
Published 辽宁农业信息化工程技术研究中心,沈阳 110866 2024
沈阳农业大学信息与电气工程学院,沈阳 110866%沈阳农业大学信息与电气工程学院,沈阳 110866
Subjects
Online AccessGet full text
ISSN1002-6819
DOI10.11975/j.issn.1002-6819.202309169

Cover

More Information
Summary:S126; 图像语义分割作为计算机视觉领域的重要技术,已经被广泛用于设施环境下的植物表型检测、机器人采摘、设施场景解析等领域.由于温室环境下未成熟番茄果实与其茎叶之间具有相似颜色,会导致图像分割精度不高等问题.该研究提出一种基于混合Transformer编码器的"RGB+深度"(RGBD)双模态语义分割模型DFST(depth-fusion semantic transformer),试验在真实温室光照情况下获得深度图像,对深度图像做HHA编码并结合彩色图像输入模型进行训练,经过HHA编码的深度图像可以作为一种辅助模态与RGB图像进行融合并进行特征提取,利用轻量化的多层感知机解码器对特征图进行解码,最终实现图像分割.试验结果表明,DFST模型在测试集的平均交并比可达96.99%,对比不引入深度图像的模型,其平均交并比提高了 1.37个百分点;DFST模型对比使用卷积神经网络作为特征提取主干网络的RGBD语义分割模型Shape Conv,其平均交并比提高了 2.43个百分点.结果证明,深度信息有助于提高彩色图像的语义分割精度,可以明显提高复杂场景语义分割的准确性和鲁棒性,同时也证明了 Transformer结构作为特征提取网络在图像语义分割中也表现出了良好的性能,可为温室环境下的番茄图像语义分割任务提供解决方案和技术支持.
ISSN:1002-6819
DOI:10.11975/j.issn.1002-6819.202309169