CoNLLデータ形式とは何ですか？

Question

テキストマイニングは初めてです。依存関係の解析後にCoNLL 2009形式で出力を提供するオープンソースjar（Mate Parser）を使用しています。情報抽出に依存解析結果を使用したい。しかし、出力の一部を理解することはできますが、CoNLLデータ形式を理解することはできません。 CoNLLデータ形式を理解するのに役立つ人はいますか??どんな種類のポインタも歓迎します。

dmcc · Accepted Answer

CoNLLは毎年異なる共有タスクであるため、多くの異なる CoNLL 形式があります。 CoNLL 2009の形式はここで説明されています。各行は、タブで区切られた一連のフィールドを持つ単一のWordを表します。 _sは空の値を示します。 Mate-Parserのマニュアルは、CoNLL 2009の最初の12列を使用することを示しています。

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

これらの列の一部の定義は、以前の共有タスクに基づいています（2006年と2007年に使用された CoNLL-X形式）。

ID（1から始まる文のインデックス）
FORM（Wordフォーム自体）
LEMMA（単語の補題または語幹）
POS（品詞）
FEAT（|で区切られた形態的特徴のリスト）
HEAD（構文の親のインデックス、ROOTの場合は0）
DEPREL（HEADとこのWordの構文関係）

PPOSで始まるこれらの列のバリエーション（たとえば、POSではなくP）があります。これは、値がゴールドスタンダード値ではなく自動的に予測されたことを示します。

更新：CoNLL-X形式を拡張する CoNLL- データ形式もあります。