一种带有长度和位置约束的字符串索引方法
TP311.131; 提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和匹配子串位置约束对原BWT索引的影响.重点解决了快速地从匹配后缀位置到字符串ID和匹配子串位置的计算问题.在3个真实的数据集上进行了比对实验,结果表明:所提出的基于BWT索引方法在没有增加原索引大小的情况下,大大提升了带有匹配字符串长度和匹配位置约束的确切子串的查找的性能,因此该算法更加适用于大规模的字符串集合的索引进行近...
Saved in:
| Published in | 东北大学学报(自然科学版) Vol. 39; no. 7; pp. 959 - 963 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
东北大学秦皇岛分校 计算机与通信工程学院,河北 秦皇岛,066004%东北大学 计算机科学与工程学院,辽宁 沈阳,110169
01.07.2018
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 1005-3026 |
| DOI | 10.12068/j.issn.1005-3026.2018.07.010 |
Cover
| Summary: | TP311.131; 提出了一种基于BWT(Burrows-wheeler-transform)的字符串集合的索引方法,以解决带有匹配字符串长度和匹配子串位置约束的子串确切匹配查找问题.讨论了BWT和基于BWT索引进行确切子串查找的基本原理.分析了字符串集合、匹配字符串长度和匹配子串位置约束对原BWT索引的影响.重点解决了快速地从匹配后缀位置到字符串ID和匹配子串位置的计算问题.在3个真实的数据集上进行了比对实验,结果表明:所提出的基于BWT索引方法在没有增加原索引大小的情况下,大大提升了带有匹配字符串长度和匹配位置约束的确切子串的查找的性能,因此该算法更加适用于大规模的字符串集合的索引进行近似字符串匹配和连接. |
|---|---|
| ISSN: | 1005-3026 |
| DOI: | 10.12068/j.issn.1005-3026.2018.07.010 |