私はテキスト分類の問題に取り組んでいます。つまり、テキストが与えられた場合、特定のラベルを割り当てる必要があります。
Facebookの高速テキストライブラリを使用してみました。これには、次の2つのユーティリティがあります。
A)事前にトレーニングされたモデルを使用した単語ベクトル
B)テキスト分類ユーティリティ
ただし、これら2つのユーティリティをマージするチュートリアルが見つからなかったため、これらは完全に独立したツールのようです。
私が欲しいのは、Word-Vectorsの事前にトレーニングされたモデルを利用して、いくつかのテキストを分類できるようにすることです。これを行う方法はありますか?
FastTextのネイティブ分類モードは、既知のクラスのテキストを使用して、Wordベクトルを自分でトレーニングするかどうかに依存します。したがって、単語ベクトルは、トレーニング中に観察される特定の分類に役立つように最適化されます。そのため、このモードは通常、事前にトレーニングされたベクトルで使用されます使用されません。
事前にトレーニングされた単語ベクトルを使用する場合は、何らかの方法でそれらを自分でテキストベクトルに構成し(たとえば、テキストのすべての単語を平均することによって)、別の分類子(多くのオプションの1つなど)をトレーニングします。 scikit-learnから)これらの機能を使用します。
FastTextの教師ありトレーニングには、次のように使用できる-pretrainedVectors
引数があります。
$ ./fasttext supervised -input train.txt -output model -Epoch 25 \
-wordNgrams 2 -dim 300 -loss hs -thread 7 -minCount 1 \
-lr 1.0 -verbose 2 -pretrainedVectors wiki.ru.vec
考慮すべき点はほとんどありません。
-dim 300
引数によって設定されます。-loss hs
)を使用する必要があります。