自動化研究主題探勘方法及其在計算語言學之應用

由於科學研究的規模日益龐大而且研究的工作也愈來愈複雜,研究人員與科技管理人員需要一套能夠有效地探勘研究主題的方法。過去我們針對這個問題提出一系列文本處理與文字資訊探勘的技術,其中主要為關鍵語詞抽取技術以及資訊視覺化技術。關鍵語詞抽取技術以研究領域中的論文文字資料做為輸入,自動化抽取關鍵語詞來代表領域中的重要主題。資訊視覺化技術則將這些語詞和它們之間的關係呈現在二維的圖形,提供使用者可以透過產生的圖形了解該領域的重要主題和它們的發展情形。其餘還包括了語詞共現估計、主題相關程度計算以及論文映射等技術。本論文將這些技術整合起來並應用到國內的計算語言學領域,確認這個領域研究與發展的重點。結果發現計算語...

Full description

Saved in:
Bibliographic Details
Published in教育資料與圖書館學 Vol. 42; no. 4; pp. 523 - 544
Main Author 林頌堅(Lin, Sung-chien)
Format Journal Article
LanguageChinese
Published 台灣 淡江大學資訊與圖書館學系 01.06.2005
Subjects
Online AccessGet full text
ISSN1013-090X
DOI10.6120/JoEMLS.200506_42(4).0006.RS.CM

Cover

More Information
Summary:由於科學研究的規模日益龐大而且研究的工作也愈來愈複雜,研究人員與科技管理人員需要一套能夠有效地探勘研究主題的方法。過去我們針對這個問題提出一系列文本處理與文字資訊探勘的技術,其中主要為關鍵語詞抽取技術以及資訊視覺化技術。關鍵語詞抽取技術以研究領域中的論文文字資料做為輸入,自動化抽取關鍵語詞來代表領域中的重要主題。資訊視覺化技術則將這些語詞和它們之間的關係呈現在二維的圖形,提供使用者可以透過產生的圖形了解該領域的重要主題和它們的發展情形。其餘還包括了語詞共現估計、主題相關程度計算以及論文映射等技術。本論文將這些技術整合起來並應用到國內的計算語言學領域,確認這個領域研究與發展的重點。結果發現計算語言學早期著重於各種語言知識的計算理論化,以因應機器翻譯的需求;中期和近期則有語音處理和資訊檢索等更多的應用出現,而應用的技術則傾向採用具有強健與容易實作等特性的統計導向方法。
ISSN:1013-090X
DOI:10.6120/JoEMLS.200506_42(4).0006.RS.CM