基于符号表示的可度量shapelets提取的时序分类研究

TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom...

Full description

Saved in:
Bibliographic Details
Published in计算机科学 Vol. 51; no. 8; pp. 106 - 116
Main Authors 王礼勤, 万源, 罗颖
Format Journal Article
LanguageChinese
Published 武汉理工大学理学院 武汉 430070 2024
Subjects
Online AccessGet full text
ISSN1002-137X
DOI10.11896/jsjkx.230500161

Cover

More Information
Summary:TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom 过滤器过滤重复的SAX词,并将过滤后的SAX词存储在哈希表中进行质量度量.随后,对SAX词的相似性进行判别,基于相似性和覆盖度等概念确定最终的shapelets候选集.在学习shapelets阶段,采用logistic回归模型学得真正的shapelets用于时序分类.在32个数据集上进行了大量实验,实验结果表明,所提方法的平均分类精度和平均分类效率均排名第二.与现有的基于shapelets的时序分类方法相比,该方法可以在保证精度的同时提高分类效率,并且具有良好的可解释性.
ISSN:1002-137X
DOI:10.11896/jsjkx.230500161