基于知网的概念特征抽取方法

TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性....

Full description

Saved in:

Bibliographic Details
Published in	Tongxin Xuebao Vol. 25; no. 7; pp. 46 - 54
Main Authors	赵林, 胡恬, 黄萱菁, 吴立德
Format	Journal Article
Language	Chinese
Published	复旦大学,计算机科学与工程系,上海,200433 2004 Editorial Department of Journal on Communications
Subjects	文本过滤向量空间模型知网特征抽取
Online Access	Get full text
ISSN	1000-436X
DOI	10.3321/j.issn:1000-436X.2004.07.006

Cover

More Information
Summary:	TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性.
ISSN:	1000-436X
DOI:	10.3321/j.issn:1000-436X.2004.07.006