基于Mel声谱图与改进SEResNet的鱼类行为识别

S932.2%TP391.4; 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet.首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征.其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高...

Full description

Saved in:
Bibliographic Details
Published in渔业现代化 Vol. 51; no. 1; pp. 56 - 63
Main Authors 杨雨欣, 于红, 杨宗轶, 涂万, 张鑫, 林远山
Format Journal Article
LanguageChinese
Published 设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023 2024
大连海洋大学信息工程学院,辽宁 大连 116023
辽宁省海洋信息技术重点实验室,辽宁 大连 116023
大连市智慧渔业重点实验室,辽宁 大连 116023
Subjects
Online AccessGet full text
ISSN1007-9580
DOI10.3969/j.issn.1007-9580.2024.01.007

Cover

More Information
Summary:S932.2%TP391.4; 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet.首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征.其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率.为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了 3.23%;相比PANNS-CNN14、ECAPA-TDNN及 MFCC+ResNet 等先进声音识别模型,TAP-SEResNet 在准确率上分别提升了5.32%、2.80%和 1.64%.所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用.
ISSN:1007-9580
DOI:10.3969/j.issn.1007-9580.2024.01.007