本院覽號:05A-880527
創作人:許鈞南、張建智
智財權: TW I145175
摘要:
本發明乃一種自一半結構化文字序列內摘取具有某些屬性的文字序列子集之資訊摘取程式。
資訊擷取系統的重要性在於其能將電子檔文件轉換成易於儲存、檢索與分析的結構化資料。但是以現有的技術,必須針對不同的應用領域,靠熟練的電腦程式設計師來設計這些系統。這樣的方法很難及時地處理每天快速增加的電子文件。本發明的目的即在於將資訊擷取系統的產生予以自動化,特別是以表格、表單、編號清單、或以條列項目呈現的資料電子文件。我們把這類文件歸類為『結構化』文件。在這類文件中,資料內容皆具規律性的格式,因此我們可以利用人工智慧的機器學習的技術讓系統自動學習這些規律性,並自動產生資料擷取系統。
可能的應用範圍:
- 網路資料探勘
- 網路資訊蒐集
- 學術論文引用次數分析
此項發明的優點:
我們已經把所發明的方法製作成一套完整的系統,包括三項元件:
- 標示元件:針對一批電子檔文件,標示元件提供使用者一套圖形使用者介面,讓使用者能很容易地標示在文件中需要被擷取的字串,以及這些字串的含意。使用者只需標示文件的一小部分,不需要對整篇文件做標示。
- 自動學習元件:自動學習元件以使用者標示好的文件為範例,自動學習文件資料格式的規律性,並將學習的結果轉化為『狀態轉移規則』。
- 資料擷取元件:這個元件模擬計算理論中所謂的『有限狀態轉譯器』來擷取文件中的資料。自動學習元件產生狀態轉移規則後便儲存起來。之後,當有需要時,使用者便可以利用資料擷取元件,把狀態轉移規則交給有限狀態轉譯器來擷取文件中的資料。一套學習好的規則,可以用來擷取任何格式相同的電子檔文件資料。
智財技轉處聯絡人:王靚棻 / 02-2787-2509 / jingfen@gate.sinica.edu.tw