web-dev-qa-db-ja.com

重み付けされた単語の埋め込みとはどういう意味ですか?

私が実装しようとしている paper では、

この作業では、ツイートは3種類のテキスト表現を使用してモデル化されました。 1つ目は、tf-idf(用語の頻度-文書の頻度の逆数)で重み付けされたバッグオブワードモデルです(セクション2.1.1)。 2番目は、すべての単語の(ワード内の)埋め込みを平均して文を表し、3番目は、すべての単語の重み付けされたワード埋め込みを平均して文を表します。単語の重みは、tf-idfで与えられます(セクション2.1.2 )。

3番目の表現についてはよくわかりません。これは、単語の重みを使用している重み付けされた単語の埋め込みがtf-idfによって与えられるためです。一緒に使えるかどうかさえわかりません。

10
Dawn17

Word埋め込みの平均化(重み付けされている可能性があります)は理にかなっていますが、メインのアルゴリズムとトレーニングデータによっては、この文の表現が最適ではない場合があります。直感は次のとおりです。

  • 異なる長さの文を処理する必要がある場合があるため、平均化(単純合計よりも良い).
  • 文中のいくつかの単語は通常、他の単語よりもはるかに価値があります。 TF-IDFは、Word値の最も単純な尺度です。結果のスケールは変化しないことに注意してください。

Kenter et alによるこの論文 も参照してください。異なるアルゴリズムでこれらの2つのアプローチの比較を実行する ニースポスト があり、他のものより大幅に優れているものはないと結論付けます。一部のアルゴリズムは単純な平均化を支持し、一部のアルゴリズムはTF-IDF重み付けでより良いパフォーマンスを発揮します。

11
Maxim

この article またはthis one では、加重和、idf重み付け、品詞重み付け、および両方を使用する混合メソッドを使用します。混合メソッドは最良であり、英語-スペイン語とアラビア語-アラビア語のSemEval 2017類似タスクで最初になるのに役立ちます(実際には、いくつかの理由で混合メソッドを送信しなかったため、実際にはアラビア語で2番目に公式でした)。

実装と使用は非常に簡単です。記事に数式がありますが、簡単に言うと、文のベクトルは単純にV = sum_i ^ k = 1 Posweight(w_i)* IDFWeight(w_i)* V_iです。

7
Didier Schwab