BERT is Not an Interlingua and the Bias of Tokenization, DeepLo@EMNLP-IJCNLP 2019

多言語BERTの、語彙の問題(closed vocabulary problem)を言語学の系統樹にマッピングし、言語学者が作成したものと比較

結果、サブワードか、単語か、文字レベルの分割方法で得られる系統樹の形に違いが現れることがわかった(Fig.7)

サブワードにおいては、もっとも言語学的に正確な描写がされており、言語間の言語的な関係を捉えられているとのこと

https://www.semanticscholar.org/paper/BERT-is-Not-an-Interlingua-and-the-Bias-of-Singh-McCann/9eb4cd1a4b4717c97c47e3dc4563a75779ae9390

論文サマリ

Posted by vastee