基于符号表示的可度量shapelets提取的时序分类研究

TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学 Vol. 51; no. 8; pp. 106 - 116
Main Authors	王礼勤, 万源, 罗颖
Format	Journal Article
Language	Chinese
Published	武汉理工大学理学院武汉 430070 2024
Subjects	Logistic regression SAX means shapelet Time series classification Bloom过滤器 Bloom filters SAX表示时间序列分类 logistic回归
Online Access	Get full text
ISSN	1002-137X
DOI	10.11896/jsjkx.230500161

Cover

More Information
Summary:	TP391; 在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低.此外,提取的shapelets候选数量仍然较多,判别力有待提高.针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets.在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度.在确定shapelets候选集阶段,利用Bloom 过滤器过滤重复的SAX词,并将过滤后的SAX词存储在哈希表中进行质量度量.随后,对SAX词的相似性进行判别,基于相似性和覆盖度等概念确定最终的shapelets候选集.在学习shapelets阶段,采用logistic回归模型学得真正的shapelets用于时序分类.在32个数据集上进行了大量实验,实验结果表明,所提方法的平均分类精度和平均分类效率均排名第二.与现有的基于shapelets的时序分类方法相比,该方法可以在保证精度的同时提高分类效率,并且具有良好的可解释性.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.230500161