Brill Tagger

出自Tan Kian-ting的維基
跳至導覽 跳至搜尋

以下是 A Simple Rule-Based Part of Speech Tagger(Eric Brill, 1992; DOI:10.3115/974499.974526)的摘要

  1. 主要是說明「機率式標記詞性」不一定勝過「規則式的標記詞性」。
  2. Brill tagger(Brill 標記器)是一種標記詞性的方式,主要做法:
    1. 先用語料庫的單字出現機率比較高的詞彙,而不用目標文之前後文,來指派目標文的各詞詞性。若是語料庫意外的詞,則用詞彙形式的分析推測來決定詞性(比如字首是否大寫決定專有名詞,字尾決定詞性)。
    2. 然後再找出目標文中各{應有詞性,實際詞性,頻率}的資料。
    3. 然後再找出某個詞性前面與後面2~3字的詞性分佈狀況(比如說前面2個詞其中一個是動詞、或是後面2個詞都是名詞),則應該要把這個詞變成詞性y的規則,如果能夠降低錯誤率,則加入規則。
    4. 如此循序套用、測試、採納,直到將詞性標註越來越精確,錯誤越來越低。