BERT,Huggingface

Thumbnail of post image 010

Hugging faceで文をTokenizeすると元の文のSpan情報が失われてしまう。これにより、NERでラベル付けしたトークンの位置をサブワード分割された文の中で見失ってしまうことがある。この困りごとを解決してくれるのが、ret ...

Uncategorized

Thumbnail of post image 144

.item()で取り出されたtensorの次元が0のために発生したエラーのため、下記の9から12行目のようにif c.ndim == 0で条件分岐させて対応。

with torch.no_grad(): for data in ...

Flair,NLP

Thumbnail of post image 106

NLPフレームワークのFlairでELMoの言語モデルを使おうとすると、from flair.embeddings import ELMoEmbeddingsをして関数を呼び出す必要があるのだが、allennlpがインストールされてい ...

BERT

Thumbnail of post image 182

BERTを用いて文や単語から特徴抽出していると、取り出されたベクトルに出現する数字が、バッチサイズを示しているのか、トークン数を示しているのかなどが分からなくなってしまう。見覚えがあるが何の数字だったか混乱した場合は、「BERT 76 ...

Python

Thumbnail of post image 081
elems = c = collections.Counter(elems)l = list(c.keys())selected = lprint(selected)>>a

NLP,Spacy

Thumbnail of post image 176

事前準備

pip install spacy

python -m spacy download en_core_web_sm

コードimport spacynlp = spacy.load("en_core_web_s ...

Python

Thumbnail of post image 119

F1 scoreを計算する際など,分母にゼロが代入される可能性がある数式を記述する際は,数値リテラルを用いて微小な値を記述するのが便利.

例えば以下のように

def calc_f1(d): d = d/(d + d ...

BERT,Flair

Thumbnail of post image 155

Hugging FaceのTransformersを使って,事前学習済モデルを読み込んで推定させるとタイトルのようなエラーがでることがある.

このエラーはBERTにおけるトークン(サブワード)の最大長512を超えた文が入力 ...

Python,Tensorflow

Thumbnail of post image 139

pip install tensorflow

を実行した際,

ERROR: Could not find a version that satisfies the requirement tensorflow