CoNLL-2003の横についてる単語ってどういう意味?

7月 27, 2020

NER(固有表現抽出)の評価の際によくでてくるCoNLL-2003.

データセットを眺めていると, 単語の横にPRP や B-NP, O などの記号が付いている.

これってどういう意味なの? と思ったので調べてみた.

まず, CoNLL-2003データセットの構造を下記に載せる.

" " O O
He PRP B-NP O
said VBD B-VP O
I PRP B-NP O
would MD B-VP O
really RB I-VP O
enjoy VB I-VP O
life NN B-NP O
there RB B-ADVP O
and CC O O
that IN B-SBAR O
I PRP B-NP O
would MD B-VP O
settle VB I-VP O
in IN B-PP O
in IN B-PP O
terms NNS B-NP O
of IN B-PP O
football NN B-NP O
as RB B-ADVP O
well RB I-ADVP O
. . O O
That IN B-NP O
, , O O
and CC O O
the DT B-NP O
fact NN I-NP O
he PRP B-NP O
is VBZ B-VP O
only RB B-ADVP O
a DT B-NP O
few JJ I-NP O
hours NNS I-NP O
drive VBP B-VP O
away RB B-ADVP O
, , O O
influenced VBD B-VP O
my PRP$ B-NP O
decision NN I-NP O
to TO B-VP O
come VB I-VP O
to TO B-PP O
Aberdeen NNP B-NP B-ORG
. . I-NP O
" " O O

CoNLL-2003は, 文が単語ごとに分割され, 各単語ごとに3つの記号が付いている.

一番左の単語が, 文中の一単語であり, 縦に読んでいくと文章になっていることが分かる.

そして, 単語に付いている3つの記号の意味は以下である.

  • 左から2番めの記号の意味: 品詞タグ. 単数や複数などの細かい違いも考慮したタグが存在. 参考URL https://www.ibm.com/support/knowledgecenter/ja/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm
  • 左から3番めの記号の意味: B, I, O は, 固有表現の始点(Begin), 中間点(Inside), それ以外(Outside)を表す. NP, VPなどは名詞や動詞を表す品詞タグである. 左から2番めの品詞タグと違って, 単数名詞や複数名詞などの細かい区別を排除した品詞タグになっている.
  • 左から4番めの記号の意味: 固有表現のクラスを表す. PERは「人名」, LOCは「地名」, 「ORG」は組織名, 「MISC」はその他固有表現を表す. CoNLL2003ではクラス数を絞っており, これらの4種類しかないそうだ.

NLP

Posted by vastee