web-dev-qa-db-ja.com

最速の音声認識ライブラリC ++

私はその一般的な質問のトピックを知っていますが、それでもC++で最速の音声認識ライブラリは何ですか?

現在、kniectでMicrosoftSAPIを使用しています。それは正常に動作し、単語を認識しますが、少し遅く、単語を認識するのに1.2秒かかることがあります。私の場合、この遅れがユーザーのインタラクションの問題を引き起こしています。

Kinectに付属のサンプルを確認しました。認識された単語に従ってカメが左右に移動しますが、それでも少し遅いです。

だから私は、「左」、「右」と言う音声認識を使用するロボットのような場合に使用できる、sapiよりも高速なライブラリがあるかどうか疑問に思いましたが、ロボットは左に動き続け、1.2秒後に右に曲がりますユーザーにとってイライラする。

19
Fahad Malik

問題は高速ではありませんが、APIを使用する適切な方法です。音声認識は時間のかかるプロセスであるため、主なトリックは、録音と並行して、録音されるとすぐにオーディオの認識を開始することです。次に、フレーズの終わりが話された瞬間まで、ほとんどすべての結果が得られ、すぐに反応することができます。

この方法で0.2秒の応答時間を実現できますが、これを実装するには、より柔軟なAPIが必要です。良い選択は CMUSphinx 、実装に使用できるオープンソースの音声認識フレームワークです。

9
Nikolay Shmyrev