Pass-Join-K:多分段匹配的相似性连接算法

TP391; 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升....

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 7; no. 10; pp. 924 - 932
Main Authors 余海洋, 林琛, 陈珂, 江弋, 邹权
Format Journal Article
LanguageChinese
Published 厦门大学深圳研究院,广东深圳518057%广东石油化工学院计算机科学与技术系,广东茂名,525000 2013
厦门大学信息科学与技术学院,福建厦门,361005%厦门大学信息科学与技术学院,福建厦门361005
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1305047

Cover

More Information
Summary:TP391; 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1305047