本院覽號:05T-890903
創作人:陳克健、馬偉雲(中央研究院詞庫小組)
智財權:專門技術
摘要:
中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。
可能的應用範圍:
- 資訊檢索
- 機器翻譯
- 語言分析
- 語言了解
- 訊息抽取
- 自然語言人機介面
此項發明的優點:
本與料庫每個文句皆根據分詞原則來斷詞。
智財技轉處聯絡人:
對本技術有興趣,請於本處網頁廠商選項下(廠商需求與諮詢)網頁填寫資料,承辦人將跟您聯絡。
If you are interested in this technology, please fill in the information on the webpage under the manufacturer option (Apply for Technology Licensing, Material Transfer, or Sponsored Research) on the website of this office, and the undertaker will contact you