基于Mel声谱图与改进SEResNet的鱼类行为识别
S932.2%TP391.4; 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet.首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征.其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高...
Saved in:
| Published in | 渔业现代化 Vol. 51; no. 1; pp. 56 - 63 |
|---|---|
| Main Authors | , , , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023
2024
大连海洋大学信息工程学院,辽宁 大连 116023 辽宁省海洋信息技术重点实验室,辽宁 大连 116023 大连市智慧渔业重点实验室,辽宁 大连 116023 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1007-9580 |
| DOI | 10.3969/j.issn.1007-9580.2024.01.007 |
Cover
| Summary: | S932.2%TP391.4; 养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行为识别准确率不高,为解决上述问题,提出基于Mel声谱图(Mel spectrogram)与改进SEResNet的鱼类行为识别模型TAP-SEResNet.首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的Mel声谱图以捕捉鱼类声音的频谱特征.其次针对鱼类声音特征关键信息易丢失的难题,提出在SEResNet模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率.为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,试验结果显示:TAP-SEResNet相比SEResNet在不降低检测速度的条件下准确率提升了 3.23%;相比PANNS-CNN14、ECAPA-TDNN及 MFCC+ResNet 等先进声音识别模型,TAP-SEResNet 在准确率上分别提升了5.32%、2.80%和 1.64%.所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用. |
|---|---|
| ISSN: | 1007-9580 |
| DOI: | 10.3969/j.issn.1007-9580.2024.01.007 |