web-dev-qa-db-ja.com

CoNLLデータ形式とは何ですか?

テキストマイニングは初めてです。依存関係の解析後にCoNLL 2009形式で出力を提供するオープンソースjar(Mate Parser)を使用しています。情報抽出に依存解析結果を使用したい。しかし、出力の一部を理解することはできますが、CoNLLデータ形式を理解することはできません。 CoNLLデータ形式を理解するのに役立つ人はいますか??どんな種類のポインタも歓迎します。

49

CoNLLは毎年異なる共有タスクであるため、多くの異なる CoNLL 形式があります。 CoNLL 2009の形式は ここ で説明されています。各行は、タブで区切られた一連のフィールドを持つ単一のWordを表します。 _sは空の値を示します。 Mate-Parserのマニュアル は、CoNLL 2009の最初の12列を使用することを示しています。

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

これらの列の一部の定義は、以前の共有タスクに基づいています(2006年と2007年に使用された CoNLL-X形式 )。

  • ID(1から始まる文のインデックス)
  • FORM(Wordフォーム自体)
  • LEMMA(単語の補題または語幹)
  • POS(品詞)
  • FEAT(|で区切られた形態的特徴のリスト)
  • HEAD(構文の親のインデックス、ROOTの場合は0)
  • DEPRELHEADとこのWordの構文関係)

PPOSで始まるこれらの列のバリエーション(たとえば、POSではなくP)があります。これは、値がゴールドスタンダード値ではなく自動的に予測されたことを示します。

更新:CoNLL-X形式を拡張する CoNLL- データ形式もあります。

57
dmcc