Approximate data instance matching: a survey

Approximate data matching is a central problem in several data management processes, such as data integration, data cleaning, approximate queries, similarity search and so on. An approximate matching process aims at defining whether two data represent the same real-world object. For atomic values (s...

Full description

Saved in:

Bibliographic Details
Published in	Knowledge and information systems Vol. 27; no. 1; pp. 1 - 21
Main Authors	Dorneles, Carina Friedrich, Gonçalves, Rodrigo, dos Santos Mello, Ronaldo
Format	Journal Article
Language	English
Published	London Springer-Verlag 01.04.2011 Springer Springer Nature B.V
Subjects	Applied sciences Approximation Artificial intelligence Computer Science Computer science; control theory; systems Data base management Data Mining and Knowledge Discovery Database Management Exact sciences and technology Information Storage and Retrieval Information systems Information Systems and Communication Service Information Systems Applications (incl.Internet) Information systems. Data bases IT in Business Matching Memory organisation. Data processing Queries Relational data bases Semantics Similarity Similarity measures Software Speech and sound recognition and synthesis. Linguistics Studies Survey Paper Taxonomy Terminology XML Duplicate detection Object matching Instance data matching Similarity matching Similarity function Record linkage Entity resolution Record matching Information integration Tree(graph) Terminology Similarity Character string Semantics Classification Database Linguistics Data structure Data link Nearest neighbour XML language Cleaning Date Value function Semistructured data Document structure Artificial intelligence
Online Access	Get full text
ISSN	0219-1377 0219-3116
DOI	10.1007/s10115-010-0285-0

Cover

More Information
Summary:	Approximate data matching is a central problem in several data management processes, such as data integration, data cleaning, approximate queries, similarity search and so on. An approximate matching process aims at defining whether two data represent the same real-world object. For atomic values (strings, dates, etc), similarity functions have been defined for several value domains (person names, addresses, and so on). For matching aggregated values, such as relational tuples and XML trees, approaches alternate from the definition of simple functions that combine values of similarity of record attributes to sophisticated techniques based on machine learning, for example. For complex data comparison, including structured and semistructured documents, existing approaches use both structure and data for the comparison, by either considering or not considering data semantics. This survey presents terminology and concepts that base approximated data matching, as well as discusses related work on the use of similarity functions in such a subject.
Bibliography:	SourceType-Scholarly Journals-1 ObjectType-Feature-1 content type line 14 ObjectType-Article-2 content type line 23
ISSN:	0219-1377 0219-3116
DOI:	10.1007/s10115-010-0285-0