本院覽號:05T-890903
創作人:陳克健、馬偉雲(中央研究院詞庫小組)
智財權:專門技術
摘要:
中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。
可能的應用範圍:
- 資訊檢索
- 機器翻譯
- 語言分析
- 語言了解
- 訊息抽取
- 自然語言人機介面
此項發明的優點:
本與料庫每個文句皆根據分詞原則來斷詞。
智財技轉處聯絡人:王靚棻 / 02-2787-2509 / jingfen@gate.sinica.edu.tw