基于符号表示的可度量shapelets提取的时序分类研究
TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom...
Saved in:
| Published in | 计算机科学 Vol. 51; no. 8; pp. 106 - 116 |
|---|---|
| Main Authors | , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
武汉理工大学理学院 武汉 430070
2024
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 1002-137X |
| DOI | 10.11896/jsjkx.230500161 |
Cover
| Summary: | TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom 过滤器过滤重复的SAX词,并将过滤后的SAX词存储在哈希表中进行质量度量.随后,对SAX词的相似性进行判别,基于相似性和覆盖度等概念确定最终的shapelets候选集.在学习shapelets阶段,采用logistic回归模型学得真正的shapelets用于时序分类.在32个数据集上进行了大量实验,实验结果表明,所提方法的平均分类精度和平均分类效率均排名第二.与现有的基于shapelets的时序分类方法相比,该方法可以在保证精度的同时提高分类效率,并且具有良好的可解释性. |
|---|---|
| ISSN: | 1002-137X |
| DOI: | 10.11896/jsjkx.230500161 |