テキストマイニングは初めてです。依存関係の解析後にCoNLL 2009形式で出力を提供するオープンソースjar(Mate Parser)を使用しています。情報抽出に依存解析結果を使用したい。しかし、出力の一部を理解することはできますが、CoNLLデータ形式を理解することはできません。 CoNLLデータ形式を理解するのに役立つ人はいますか??どんな種類のポインタも歓迎します。
CoNLLは毎年異なる共有タスクであるため、多くの異なる CoNLL 形式があります。 CoNLL 2009の形式は ここ で説明されています。各行は、タブで区切られた一連のフィールドを持つ単一のWordを表します。 _
sは空の値を示します。 Mate-Parserのマニュアル は、CoNLL 2009の最初の12列を使用することを示しています。
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
これらの列の一部の定義は、以前の共有タスクに基づいています(2006年と2007年に使用された CoNLL-X形式 )。
ID
(1から始まる文のインデックス)FORM
(Wordフォーム自体)LEMMA
(単語の補題または語幹)POS
(品詞)FEAT
(|で区切られた形態的特徴のリスト)HEAD
(構文の親のインデックス、ROOT
の場合は0)DEPREL
(HEAD
とこのWordの構文関係)PPOS
で始まるこれらの列のバリエーション(たとえば、POS
ではなくP
)があります。これは、値がゴールドスタンダード値ではなく自動的に予測されたことを示します。
更新:CoNLL-X形式を拡張する CoNLL- データ形式もあります。