BERT is Not an Interlingua and the Bias of Tokenization, DeepLo@EMNLP-IJCNLP 2019
多言語BERTの、語彙の問題(closed vocabulary problem)を言語学の系統樹にマッピングし、言語学者が作成したものと比較
結果、サブワードか、単語か、文字レベルの分割方法で得られる系統樹の形に違いが現れることがわかった(Fig.7)
サブワードにおいては、もっとも言語学的に正確な描写がされており、言語間の言語的な関係を捉えられているとのこと
ディスカッション
コメント一覧
まだ、コメントがありません