閉じる

BERT is Not an Interlingua and the Bias of Tokenization, DeepLo@EMNLP-IJCNLP 2019

多言語BERTの、語彙の問題(closed vocabulary problem)を言語学の系統樹にマッピングし、言語学者が作成したものと比較

結果、サブワードか、単語か、文字レベルの分割方法で得られる系統樹の形に違いが現れることがわかった(Fig.7)

サブワードにおいては、もっとも言語学的に正確な描写がされており、言語間の言語的な関係を捉えられているとのこと

https://www.semanticscholar.org/paper/BERT-is-Not-an-Interlingua-and-the-Bias-of-Singh-McCann/9eb4cd1a4b4717c97c47e3dc4563a75779ae9390

Pocket

コメントを残す

あなたのメールアドレスは公開されません。必須項目には印がついています *

© 2020 CV・NLP TIPS | WordPress Theme: Annina Free by CrestaProject.