Pass-Join-K:多分段匹配的相似性连接算法
TP391; 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升....
Saved in:
| Published in | 计算机科学与探索 Vol. 7; no. 10; pp. 924 - 932 |
|---|---|
| Main Authors | , , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
厦门大学深圳研究院,广东深圳518057%广东石油化工学院计算机科学与技术系,广东茂名,525000
2013
厦门大学信息科学与技术学院,福建厦门,361005%厦门大学信息科学与技术学院,福建厦门361005 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1673-9418 |
| DOI | 10.3778/j.issn.1673-9418.1305047 |
Cover
| Summary: | TP391; 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升. |
|---|---|
| ISSN: | 1673-9418 |
| DOI: | 10.3778/j.issn.1673-9418.1305047 |