私は約4時間の毎日のポッドキャストを聴いています。トランスクリプトを自動的に生成する方法があれば、すばらしいプロジェクトになると思います。 mp3を「リッスン」し、彼らが言っていることのテキストを作成するソフトウェアはありますか?
質問が多すぎると思うので、誰が話しているのかを区別することにはあまり関心がありません。話す主な人は4人で、他の人はそれほど頻繁ではありません。
手順:
チップ
あなたが試すことができる1つのことは(毎日ではありませんが)オーディオをビデオとしてYoutubeにアップロードし、YouTubeにビデオを転記するように依頼し、英語のキャプションを与えることです... YouTubeがこれを行うには最大24時間かかることがありますただし...キャプションファイルはダウンロード可能であり、自分で編集できるため、テキストをコピーして好きな場所に貼り付けることができます...
試しました ウェーブからテキスト ?これはWindowsのみであり、無料トライアルは限られています。
これらのファイルにはいくつのボイスがありますか?すべてのファイルに1つの(トレーニング可能な)音声からの音声が含まれていますか?音質はどうですか?これらの質問に対する答えが「Justme」、「Yes」、および「CD Quality」ではない場合、@ Snarkは正しいです。これは、基本的に手動で行う必要があります。優れた音声認識プログラムを入手し、トレーニングに時間をかけ、ファイルを再生しながら、彼らの言うことを話そうとします。
約90%〜95%の文字起こしの成功を期待してください。これは、20語ごとに1つまたは2つが間違っていることに気付くまでは素晴らしい音です。
精度に影響を与える可能性のあるその他の要因:
音声文字変換にDragon NaturalSpeakingを使用しています。優れたソフトウェア!
しかし、それは無料ではありません。Amazonは実際の バージョン10は45ドル を提供しています。周りを見回すと、DNS9がさらに安くなります。
このような状況でドラゴンスピーチを使用する場合の問題は、スピーチを正確に解釈することを学習するトレーニングプロセスを実際に実行できないことです。この種の使用を目的としたものではありません。たぶんNSAには、この種のことを行うためのソフトウェアがいくつかあります。:)
音声認識ソフトウェア が必要です。
そのためのプログラムはいくつかありますが、バッチ変換ができるプログラムはありません。私はそれがそれらの少なくとも1つの機能であるとかなり確信しています。それらのほとんどは決して安くはないことに注意してください。