Webクロールダンプで、サイズが10 TB以上の巨大な大規模データでWord2vecをトレーニングすることを考えています。
私はiMacでc実装のGoogleNews-2012ダンプ(1.5gb)を個人的にトレーニングしました。私は試さなかったpython実装::(ウィキダンプ(11gb)でベクトルを生成する場合、300ベクトル長のベクトルを生成するのに約9日かかるとどこかで読んだ。
Word2vecを高速化するには?分散型モデルを使用する必要がありますか、それとも2〜3日以内に使用する必要があるハードウェアの種類ですか?私は8GB RAMのiMacを持っています。
どちらが速いですか? Gensim pythonまたはC実装?
Word2vecの実装はGPUトレーニングをサポートしていないようです。
Word2Vecモデルを大規模に作成する機会は数多くあります。あなたが指摘したように、候補となるソリューションは分散(および/またはマルチスレッド)またはGPUです。これは完全なリストではありませんが、うまくいけば、続行方法についていくつかのアイデアが得られます。
分散/マルチスレッドオプション:
多くのWord2Vec GPU実装が存在します。データセットのサイズが大きく、GPUメモリが限られている場合、クラスタリング戦略を検討する必要があります。
成熟度とサポートの程度が異なるWord2Vecには、他にも多数のCUDA実装があります。
SparkMLチームは最近、cuBLASベースのWord2Vecプロトタイプのプロトタイプを作成したと思います。これを調査することをお勧めします。