私は現在、大学で自然言語処理コースを受講していますが、いくつかの基本的な概念と混同しています。 統計自然言語処理の基礎 本からPOSタギングの定義を取得します。
タグ付けは、文中の各単語に適切な品詞でラベル付け(またはタグ付け)するタスクです。各単語が名詞、動詞、形容詞などであるかどうかを判断します。
しかし、浅い解析もPOSタギングのユーティリティの1つとして説明されているため、本では浅い解析の定義を見つけることができません。それで私はウェブを検索し始めました、そして浅い構文解析の直接の説明は見つかりませんでした Wikipedia :
浅い解析(チャンク、「軽い解析」)は、構成要素(名詞グループ、動詞、動詞グループなど)を識別する文の分析ですが、主な文での内部構造や役割は指定しません。
率直に言って違いはわかりませんが、英語が原因なのか、単純な基本概念が理解できないだけなのかもしれません。誰でも浅い解析とPOSタグ付けの違いを説明できますか?浅い解析は、しばしば浅い意味解析とも呼ばれますか?
前に感謝します。
POSタグ付けは、入力文のすべての単語にPOSタグを付与します。
文を解析すると(たとえばstanford pcfgを使用して)、文はツリーに変換され、その葉にはPOSタグ(文の単語に対応する)が保持されますが、ツリーの残りの部分では、これらの単語がどの程度正確に結合しているかがわかります一緒に全体の文を作る。たとえば、形容詞と名詞は結合して「名詞句」になり、別の形容詞と結合して別の名詞句(たとえば、クイックブラウンフォックス)を形成する場合があります(断片の正確な結合方法は、問題のパーサーによって異なります)。
http://nlp.stanford.edu:8080/parser/index.jsp で、パーサーの出力がどのように見えるかを確認できます。
浅いパーサーまたは「チャンカー」は、これら2つの中間にあります。単純なPOSタガーは非常に高速ですが、十分な情報が得られず、完全なパーサーは低速であり、多すぎます。 POSタガーは、解析ツリーの一番下の層のみを返すパーサーと考えることができます。チャンカーは、代わりに解析ツリーの他の層を返すパーサーと考えることができます。単語の集まりが一緒に名詞句を形成することを知っている必要があるだけの場合がありますが、それらの単語内のツリーのサブ構造(つまり、形容詞、決定詞、名詞などである単語、およびそれらがどのように組み合わされるか)は気にしません。 。そのような場合、文の完全な解析ツリーを生成する時間を無駄にする代わりに、チャンカーを使用して必要な情報を正確に取得できます。
POSタグ付けは、テキストからすべてのトークンのタイプを決定するプロセスです。 NOUN、VERB、DETERMINERなど。トークンは、単語または句読点です。
一方、浅い解析またはチャンキングは、テキストを構文的に関連するグループに分割するプロセスです。
位置タグ付け出力
私/ PRP $犬/ NN好き/ VBZ彼/ PRP $食べ物/ NN ./.
チャンキング出力
[NPマイドッグ] [VP好き] [NP彼の食べ物]
POS_taggerでは、{noun、verb、adj、adv、prob ...} while shallow parserのような「タグセット」を使用して単語にタグを付けます名前エンティティや文中のフレーズなどのサブコンポーネントを定義してみてください。「私は現在((私の大学)で自然(言語処理コース)を受講しています)と(まだいくつかの基本的な機能と混同されています)概念。)"
制約文法フレームワークは例示です。最も単純で大雑把な形で、入力としてPOSタグ付きテキストを取り、Part of Clauseタグと呼べるものを追加します。たとえば形容詞の場合、@NN>
を追加して、NPの一部であり、Wordが右側にあることを示すことができます。
D. JurafskyとJH Martinは book で次のように述べています。その浅い解析(部分的な解析)は、文からすべての可能な情報を抽出するのではなく、単に抽出するだけの解析です貴重特定のケース情報。
チャンキングは、浅い解析のアプローチの1つにすぎません。言及したように、それは基本的な非再帰句(例えば、動詞句や名詞句)に関する情報のみを抽出します。
たとえば、他のアプローチでは、フラットな解析ツリーを生成します。これらのツリーには品詞タグに関する情報が含まれている場合がありますが、PP添付ファイル、調整のあいまいさ、名義複合分析などの意味的または文脈的要因を必要とする可能性がある決定は延期します。
したがって、浅い解析は、部分的な解析ツリーを生成する解析です。チャンキングはそのような解析の例です。