私はやっていると休閑を行うアプリケーション:
1:
マイクでノイズが検出されると、ノイズが検出されなくなるまで、マイクが音声の録音を開始します。その後、オーディオはwavファイルに記録されます。
2:
私はそれにいくつかの単語を検出する必要があります。検出する単語は5〜10語だけです。
これまでのところ、私のコードは最初の部分(ノイズの検出とオーディオの録音)のみを実行します。今、私は次の単語のリストがあります:help, please, yes, no, could, you, after, tomorrow
。自分の音にこれらの単語が含まれているかどうかをオフラインで検出する方法が必要です。これは可能ですか?どうやってやるの? Linuxを使用していますが、運用システムをWindowsに変更したり、仮想マシンを使用したりする方法はありません。
音のスペクトログラムを使用し、列車データベースを作成し、分類器を使用して予測することを考えています。たとえば、 this はWordのスペクトログラムです。これは良いテクニックですか?
ありがとう。
Pythonからpocketsphinxを使用できます。pip install pocketsphinx
。コードは次のようになります。
import sys, os
from pocketsphinx.pocketsphinx import *
from sphinxbase.sphinxbase import *
modeldir = "../../../model"
datadir = "../../../test/data"
# Create a decoder with certain model
config = Decoder.default_config()
config.set_string('-hmm', os.path.join(modeldir, 'en-us/en-us'))
config.set_string('-dict', os.path.join(modeldir, 'en-us/cmudict-en-us.dict'))
config.set_string('-kws', 'command.list')
# Open file to read the data
stream = open(os.path.join(datadir, "goforward.raw"), "rb")
# Alternatively you can read from microphone
# import pyaudio
#
# p = pyaudio.PyAudio()
# stream = p.open(format=pyaudio.Paint16, channels=1, rate=16000, input=True, frames_per_buffer=1024)
# stream.start_stream()
# Process audio chunk by chunk. On keyword detected perform action and restart search
decoder = Decoder(config)
decoder.start_utt()
while True:
buf = stream.read(1024)
if buf:
decoder.process_raw(buf, False, False)
else:
break
if decoder.hyp() != None:
print ([(seg.Word, seg.prob, seg.start_frame, seg.end_frame) for seg in decoder.seg()])
print ("Detected keyword, restarting search")
decoder.end_utt()
decoder.start_utt()
キーワードのリストは次のようになります。
forward /1e-1/
down /1e-1/
other phrase /1e-20/
数値は検出のしきい値です