Brill Tagger

出自Tan Kian-ting的維基
於 2023年7月6日 (四) 00:20 由 Tankianting討論 | 貢獻 所做的修訂 (建立內容為「{{Nav|自然語言處理}} 以下是 ''[https://aclanthology.org/A92-1021/ A Simple Rule-Based Part of Speech Tagger]''(Eric Brill, 1992; DOI:10.3115/974499.…」的新頁面)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋

以下是 A Simple Rule-Based Part of Speech Tagger(Eric Brill, 1992; DOI:10.3115/974499.974526)的摘要

  1. 主要是說明「機率式標記詞性」不一定勝過「規則式的標記詞性」。
  2. Brill tagger 是一種標記詞性的方式
  3. 主要做法:
    1. 先用語料庫的單字出現機率比較高的詞彙,而不用目標文之前後文,來指派目標文的各詞詞性。若是語料庫意外的詞,則用詞彙形式的分析推測來決定詞性(比如字首是否大寫決定專有名詞,字尾決定詞性)。
    2. 然後再找出文章中之{應有詞性,實際詞性,頻率}的資料。
    3. 然後再找出某個詞性前面與後面2~3字的詞性分佈狀況(比如說前面2個詞其中一個是動詞、或是後面2個詞都是名詞),則應該要把這個詞變成詞性y的規則,如果能夠降低錯誤率,則加入規則。
    4. 如此循序套用、測試、採納,直到將詞性標註越來越精確,錯誤越來越低。