最近、英語用のfasttext事前トレーニング済みモデルをダウンロードしました。 2つのファイルを取得しました。
2つのファイルの違いは何ですか?
.vec
ファイルには、集約されたWordベクターのみがプレーンテキストで含まれています。 .bin
ファイルさらにモデルパラメータと、すべてのn-gramのベクトルが含まれます。
したがって、それらのNグラム(FastTextの有名な「サブワード情報」)を使用してトレーニングしなかった単語をエンコードする場合は、need FastTextを処理できるAPIを見つける必要があります.bin
ファイル(ほとんどが.vec
ファイル、ただし...)。
documentation が言うように、
model.vec
は、Wordのベクターを1行に1つずつ含むテキストファイルです。model.bin
は、ディクショナリおよびすべてのハイパーパラメータとともにモデルのパラメータを含むバイナリファイルです。
つまり、.vec
ファイル形式は.txt
ファイル形式と同じであり、他のアプリケーションで使用できます(たとえば、.vec
ファイルはWord2Vecによって生成された.txt
ファイルに類似しているため、FastTextモデルとWord2Vecモデルの間でデータを交換するために) 。また、ベクトルのトレーニングを継続する場合や最適化を再開する場合は、.bin
ファイルを使用できます。