基于知网的概念特征抽取方法
TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性....
Saved in:
| Published in | Tongxin Xuebao Vol. 25; no. 7; pp. 46 - 54 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
复旦大学,计算机科学与工程系,上海,200433
2004
Editorial Department of Journal on Communications |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1000-436X |
| DOI | 10.3321/j.issn:1000-436X.2004.07.006 |
Cover
| Summary: | TP391; 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法.该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率.我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性. |
|---|---|
| ISSN: | 1000-436X |
| DOI: | 10.3321/j.issn:1000-436X.2004.07.006 |