私が実装しようとしている paper では、
この作業では、ツイートは3種類のテキスト表現を使用してモデル化されました。 1つ目は、tf-idf(用語の頻度-文書の頻度の逆数)で重み付けされたバッグオブワードモデルです(セクション2.1.1)。 2番目は、すべての単語の(ワード内の)埋め込みを平均して文を表し、3番目は、すべての単語の重み付けされたワード埋め込みを平均して文を表します。単語の重みは、tf-idfで与えられます(セクション2.1.2 )。
3番目の表現についてはよくわかりません。これは、単語の重みを使用している重み付けされた単語の埋め込みがtf-idfによって与えられるためです。一緒に使えるかどうかさえわかりません。
Word埋め込みの平均化(重み付けされている可能性があります)は理にかなっていますが、メインのアルゴリズムとトレーニングデータによっては、この文の表現が最適ではない場合があります。直感は次のとおりです。
Kenter et alによるこの論文 も参照してください。異なるアルゴリズムでこれらの2つのアプローチの比較を実行する ニースポスト があり、他のものより大幅に優れているものはないと結論付けます。一部のアルゴリズムは単純な平均化を支持し、一部のアルゴリズムはTF-IDF重み付けでより良いパフォーマンスを発揮します。