BERTをfine-tuningする際のTips [自分用メモ]
data:image/s3,"s3://crabby-images/affab/affab3511029f70b109ff2dc0189887c09d6b3a6" alt="Thumbnail of post image 185"
AI SHIFT様が作成されたブログ記事が分かりやすかったので、筆者としての解釈を自分用メモとして残すことにする。
Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編〜 | 株式会社AI ...
BEiTのlast_hidden_stateを理解する
data:image/s3,"s3://crabby-images/be307/be30737e6cbc60e3d29def5a5969e320cacc1802" alt="Thumbnail of post image 154"
を参照すると,以下のようにBEiTから特徴を抽出するコードが書かれている.
from transformers import BeitFeatureExtractor, BeitModelfrom PIL import Imag ...TransformerでTokenizeしたSpanを入力文から特定
data:image/s3,"s3://crabby-images/58112/58112708c17803cbad556570de321cd0293277a8" alt="Thumbnail of post image 057"
Hugging faceで文をTokenizeすると元の文のSpan情報が失われてしまう。これにより、NERでラベル付けしたトークンの位置をサブワード分割された文の中で見失ってしまうことがある。この困りごとを解決してくれるのが、ret ...
なぜBERTの隠れ層の次元が768なのか?
data:image/s3,"s3://crabby-images/d177e/d177e1bda5f84f8a28b9bb39f9a3d3eaf6066e0b" alt="Thumbnail of post image 158"
BERTを用いて文や単語から特徴抽出していると、取り出されたベクトルに出現する数字が、バッチサイズを示しているのか、トークン数を示しているのかなどが分からなくなってしまう。見覚えがあるが何の数字だったか混乱した場合は、「BERT 76 ...
RuntimeError: The size of tensor a (1104) must match the size of tensor b (512) at non-singleton dimension 1
data:image/s3,"s3://crabby-images/a8371/a83710bd0144c74c198b82d5bc889c0f3a88fdbd" alt="Thumbnail of post image 112"
Hugging FaceのTransformersを使って,事前学習済モデルを読み込んで推定させるとタイトルのようなエラーがでることがある.
このエラーはBERTにおけるトークン(サブワード)の最大長512を超えた文が入力 ...