基于路径与词林编码的词语相似度计算方法
TP391; 现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确.针对该问题,提出一种改进的词语语义相似度计算方法.将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度.在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高....
Saved in:
Published in | 计算机工程 Vol. 44; no. 10; pp. 160 - 167 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
上海师范大学信息与机电工程学院,上海,200134
2018
|
Subjects | |
Online Access | Get full text |
ISSN | 1000-3428 |
DOI | 10.19678/j.issn.1000-3428.0048357 |
Cover
Summary: | TP391; 现有词语相似度计算方法主要针对词语的路径结构进行计算,较少深入考虑词语的语义信息,导致计算结果不够准确.针对该问题,提出一种改进的词语语义相似度计算方法.将词语的词林编码与路径结构相结合,同时利用局部敏感哈希算法和海明距离计算词林编码之间的相似度.在MC和RG数据集上的实验结果表明,该方法可使皮尔逊相关系数分别达到0.897 4和0.866 8,较传统基于路径和深度的计算方法准确性更高. |
---|---|
ISSN: | 1000-3428 |
DOI: | 10.19678/j.issn.1000-3428.0048357 |