テキストをチャンクにすると、NN, VBD, IN, DT, NNS, RB
のような多くのコードが出力に表示されます。これらの意味を私に伝えるリストがどこかに文書化されていますか? nltk chunk code
nltk chunk grammar
nltk chunk tokens
をグーグルで試しました。
しかし、これらのコードの意味を説明しているドキュメントは見つかりません。
表示されるタグは、チャンクの結果ではなく、チャンクの前に発生するPOSタギングです。ペンツリーバンクのタグセットです( を参照してください)https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
_>>> from nltk import Word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(Word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(Word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
_
チャンクを取得するには、チャンクされた出力内でサブツリーを探します。上記の出力から、Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
はチャンクを示します。
このチュートリアルサイトは、NLTKのチャンキングプロセスを説明するのに非常に役立ちます。 http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf 。
公式ドキュメントについては、 http://www.nltk.org/howto/chunk.html を参照してください
上記のリンクにはすべての種類があります。しかし、これがまだ誰かにとって役立つことを願って、他のリンクで見逃されているいくつかを追加しました。
[〜#〜] cc [〜#〜]:論理積を調整
[〜#〜] cd [〜#〜]:基数
[〜#〜] dt [〜#〜]:決定子
[〜#〜] ex [〜#〜]:そこに存在
[〜#〜] fw [〜#〜]:外国語
[〜#〜] in [〜#〜]:前置詞または従属接続詞
[〜#〜] jj [〜#〜]:形容詞
[〜#〜] vp [〜#〜]:動詞句
[〜#〜] jjr [〜#〜]:形容詞、比較
[〜#〜] jjs [〜#〜]:形容詞、最上級
[〜#〜] ls [〜#〜]:リストアイテムマーカー
[〜#〜] md [〜#〜]:モーダル
[〜#〜] nn [〜#〜]:名詞、単数または質量
[〜#〜] nns [〜#〜]:名詞、複数形
[〜#〜] pp [〜#〜]:前置詞句
[〜#〜] nnp [〜#〜]:固有名詞、単数フレーズ
[〜#〜] nnps [〜#〜]:固有名詞、複数形
[〜#〜] pdt [〜#〜]:事前判定
[〜#〜] pos [〜#〜]:強制終了
[〜#〜] prp [〜#〜]:人称代名詞句
[〜#〜] prp [〜#〜]:所有代名詞句
[〜#〜] rb [〜#〜]:副詞
[〜#〜] rbr [〜#〜]:副詞、比較
[〜#〜] rbs [〜#〜]:副詞、最上級
[〜#〜] rp [〜#〜]:パーティクル
[〜#〜] s [〜#〜]:単純な宣言句
[〜#〜] sbar [〜#〜]:(おそらく空の)従属接続詞によって導入された句
[〜#〜] sbarq [〜#〜]:wh-Wordまたはwh-phraseからの直接的な質問。
[〜#〜] sinv [〜#〜]:逆宣言文、つまり主語が緊張した動詞またはモーダルに従うもの。
[〜#〜] sq [〜#〜]:SBARQのwh-phraseに続く、yes/no質問の反転、またはwh-questionのメイン句。
[〜#〜] sym [〜#〜]:記号
[〜#〜] vbd [〜#〜]:動詞、過去形
[〜#〜] vbg [〜#〜]:動詞、動詞、または現在分詞
[〜#〜] vbn [〜#〜]:動詞、過去分詞
[〜#〜] vbp [〜#〜]:動詞、3人称以外の単数形の存在
[〜#〜] vbz [〜#〜]:動詞、3人称単数形
[〜#〜] wdt [〜#〜]:Wh決定子
[〜#〜] wp [〜#〜]:Wh代名詞
[〜#〜] wp [〜#〜]:所有するwh-代名詞
[〜#〜] wrb [〜#〜]:Wh-副詞