同じ作者のオーディオファイルが約3000以上あります。著者が特定の単語について言った講義を書き写す必要があります。
だから私は特定の単語が言われているすべてのファイルを自動的に見つけるソフトウェアソリューションが必要です。音声ファイルは15年以上にわたって話されていたため、Wordの話し方には多少のばらつきがあります。
フリー/オープンソースソリューションを高く評価しています。
検索してみて、スフィンクスについて知りました。しかし、プロジェクトで使用するように設定できません。どんな助けでも大歓迎です。お願いします
キーワードスポッティングをサポートするオープンソースの音声認識エンジンである CMUSphinx を使用できます。
1)オーディオを必要な形式に変換します-16khz 16ビットモノラルファイル:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
2) http://github.com/cmusphinx から最新のpocketsphinxとsphinxbaseをビルドしてインストールします
3)ダウンロード en-us汎用音響モデル
4)検出を実行します。
pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes
検出されたキーワードとその時刻が印刷されます。最高の検出精度を得るには、kws_thresholdを調整できます。