基于路径与词林编码的词语相似度计算方法

TP391; 现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确.针对该问题,提出一种改进的词语语义相似度计算方法.将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度.在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高....

Full description

Saved in:
Bibliographic Details
Published in计算机工程 Vol. 44; no. 10; pp. 160 - 167
Main Authors 王松松, 高伟勋, 徐逸凡
Format Journal Article
LanguageChinese
Published 上海师范大学信息与机电工程学院,上海,200134 2018
Subjects
Online AccessGet full text
ISSN1000-3428
DOI10.19678/j.issn.1000-3428.0048357

Cover

More Information
Summary:TP391; 现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确.针对该问题,提出一种改进的词语语义相似度计算方法.将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度.在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高.
ISSN:1000-3428
DOI:10.19678/j.issn.1000-3428.0048357