Brill Tagger
於 2023年7月6日 (四) 00:21 由 Tankianting(討論 | 貢獻) 所做的修訂
以下是 A Simple Rule-Based Part of Speech Tagger(Eric Brill, 1992; DOI:10.3115/974499.974526)的摘要
- 主要是說明「機率式標記詞性」不一定勝過「規則式的標記詞性」。
- Brill tagger(Brill 標記器)是一種標記詞性的方式,主要做法:
- 先用語料庫的單字出現機率比較高的詞彙,而不用目標文之前後文,來指派目標文的各詞詞性。若是語料庫意外的詞,則用詞彙形式的分析推測來決定詞性(比如字首是否大寫決定專有名詞,字尾決定詞性)。
- 然後再找出文章中之{應有詞性,實際詞性,頻率}的資料。
- 然後再找出某個詞性前面與後面2~3字的詞性分佈狀況(比如說前面2個詞其中一個是動詞、或是後面2個詞都是名詞),則應該要把這個詞變成詞性y的規則,如果能夠降低錯誤率,則加入規則。
- 如此循序套用、測試、採納,直到將詞性標註越來越精確,錯誤越來越低。