constituency parserとdependency parserの違いは何ですか? 2つの異なる用途は何ですか?
構成要素解析ツリーは、テキストをサブフレーズに分割します。ツリー内の非終端記号はフレーズのタイプであり、終端記号は文内の単語であり、エッジはラベル付けされていません。 「John sees Bill」という単純な文の場合、選挙区の解析は次のようになります。
Sentence
|
+-------------+------------+
| |
Noun Phrase Verb Phrase
| |
John +-------+--------+
| |
Verb Noun Phrase
| |
sees Bill
依存関係解析は、単語をその関係に従って接続します。ツリーの各頂点は単語を表し、子ノードは親に依存する単語であり、エッジは関係によってラベル付けされます。 「John sees Bill」の依存関係解析は次のようになります。
sees
|
+--------------+
subject | | object
| |
John Bill
目標に最も近いパーサータイプを使用する必要があります。文内のサブフレーズに興味がある場合は、おそらく選挙区の解析が必要です。単語間の依存関係に興味がある場合は、おそらく依存関係の解析が必要です。
スタンフォードパーサーはどちらかを提供できます( オンラインデモ )。実際、実際に機能する方法は、常に構成要素パーサーで文を解析し、必要に応じて、構成要素解析ツリーで決定論的(ルールベース)変換を実行して、それを依存関係ツリーに変換することです。
詳細はここで見つけることができます: