基于知网的概念特征抽取方法

TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性....

Full description

Saved in:
Bibliographic Details
Published inTongxin Xuebao Vol. 25; no. 7; pp. 46 - 54
Main Authors 赵林, 胡恬, 黄萱菁, 吴立德
Format Journal Article
LanguageChinese
Published 复旦大学,计算机科学与工程系,上海,200433 2004
Editorial Department of Journal on Communications
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.3321/j.issn:1000-436X.2004.07.006

Cover

More Information
Summary:TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性.
ISSN:1000-436X
DOI:10.3321/j.issn:1000-436X.2004.07.006