web-dev-qa-db-ja.com

MP3をテキストに変換する音声認識アプリ?

オーディオをテキストに変換できるアプリケーションを知っている人はいますか? ubuntu 12.04 LTSを実行しています。

27
Kopano

使用できるソフトウェアは CMUSphinx です。別の回答で提案されているとは異なり、Juliusはモデルを必要とするため適切ではありません。 Juliusでは、大規模な語彙音声認識のモデルは利用できません。

pocketsphinx を使用して、音声ファイルを変換できます。これらの2つのコマンドで作業を行う必要があります。最初にファイルを必要な形式に変換してから、それを認識します。

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

ランポケットスフィンクス

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

結果はresult.txtに保存されます。

21
Nikolay Shmyrev

私はこれが古いことを知っていますが、Nikolayの答えを拡張し、将来誰かを救うことを願っています、最新バージョンのpocketsphinxを動作させるには、githubまたはsourceforgeリポジトリからコンパイルする必要があります(わからないより最新の状態に保たれます)。 -j8は、可能であれば8つの独立したジョブを並行して実行することを意味することに注意してください。より多くのCPUコアがある場合は、数を増やすことができます。

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
Sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
Sudo make install
cd ..

次に、以下から: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ 最新バージョンのcmusphinx-en-us-....tar.gzおよびen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

その後、最終的にニコライの答えから手順を進めることができます:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

スフィンクスは大丈夫です。読みやすいバージョンのテキストを作成するためにこれに頼るつもりはありませんが、特定の引用を探している場合は検索できるので十分です。 Xapian( http://www.lesbonscomptes.com/recoll/ )のような検索アルゴリズムを使用し、ワイルドカードを受け入れ、正確な検索式を必要としない場合、これは特にうまく機能します。

お役に立てれば。

11

音声をテキストに変換したいので、Ubuntu Software Centerを開いてJuliusを検索してみてください

説明

「Julius」は、音声関連の研究者および開発者向けの高性能な2パスの大語彙連続音声認識(LVCSR)デコーダソフトウェアです。

または、ソフトウェアセンターにない別のオプションはSimon

...は、オープンソースの音声認識プログラムで、マウスとキーボードを置き換えます。

参照リンク

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

11
CoalaWeb
1
alexei