Android上のサービスとしての音声認識Android 4.1＆4.2

Question

すべてのAndroidバージョン4.1までのサービスとして、SpeechRecognizerクラスを使用して）連続音声認識を動作させることに成功しました。音声認識が開始されてから数秒後に音声入力が検出されない場合、音声認識機能が静かに停止するかのようにAPIが文書化されていないという問題があります。（ http://code.google.com/p/Android/issues/detail?id=37883 ）

この問題の回避策を提案する質問を見つけました（音声認識は数秒後にリスニングを停止します）が、どうすればいいのかわかりませんこのソリューションに必要なハンドラを実装します。私はこの回避策が引き起こす数秒ごとに起こる「ビープ音」を知っていますが、継続的な音声認識を得ることは私にとってより重要です。

誰か他の代替回避策があれば、私もそれらを聞きたいです。

Hoan Nguyen · Accepted Answer

これはAndroidバージョン4.1.1の回避策です。

public class MyService extends Service { protected AudioManager mAudioManager; protected SpeechRecognizer mSpeechRecognizer; protected Intent mSpeechRecognizerIntent; protected final Messenger mServerMessenger = new Messenger(new IncomingHandler(this)); protected boolean mIsListening; protected volatile boolean mIsCountDownOn; private boolean mIsStreamSolo; static final int MSG_RECOGNIZER_START_LISTENING = 1; static final int MSG_RECOGNIZER_CANCEL = 2; @Override public void onCreate() { super.onCreate(); mAudioManager = (AudioManager) getSystemService(Context.AUDIO_SERVICE); mSpeechRecognizer = SpeechRecognizer.createSpeechRecognizer(this); mSpeechRecognizer.setRecognitionListener(new SpeechRecognitionListener()); mSpeechRecognizerIntent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM); mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE, this.getPackageName()); } protected static class IncomingHandler extends Handler { private WeakReference<MyService> mtarget; IncomingHandler(MyService target) { mtarget = new WeakReference<MyService>(target); } @Override public void handleMessage(Message msg) { final MyService target = mtarget.get(); switch (msg.what) { case MSG_RECOGNIZER_START_LISTENING: if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.JELLY_BEAN) { // turn off beep sound if (!mIsStreamSolo) { mAudioManager.setStreamSolo(AudioManager.STREAM_VOICE_CALL, true); mIsStreamSolo = true; } } if (!target.mIsListening) { target.mSpeechRecognizer.startListening(target.mSpeechRecognizerIntent); target.mIsListening = true; //Log.d(TAG, "message start listening"); //$NON-NLS-1$ } break; case MSG_RECOGNIZER_CANCEL: if (mIsStreamSolo) { mAudioManager.setStreamSolo(AudioManager.STREAM_VOICE_CALL, false); mIsStreamSolo = false; } target.mSpeechRecognizer.cancel(); target.mIsListening = false; //Log.d(TAG, "message canceled recognizer"); //$NON-NLS-1$ break; } } } // Count down timer for Jelly bean work around protected CountDownTimer mNoSpeechCountDown = new CountDownTimer(5000, 5000) { @Override public void onTick(long millisUntilFinished) { // TODO Auto-generated method stub } @Override public void onFinish() { mIsCountDownOn = false; Message message = Message.obtain(null, MSG_RECOGNIZER_CANCEL); try { mServerMessenger.send(message); message = Message.obtain(null, MSG_RECOGNIZER_START_LISTENING); mServerMessenger.send(message); } catch (RemoteException e) { } } }; @Override public void onDestroy() { super.onDestroy(); if (mIsCountDownOn) { mNoSpeechCountDown.cancel(); } if (mSpeechRecognizer != null) { mSpeechRecognizer.destroy(); } } protected class SpeechRecognitionListener implements RecognitionListener { @Override public void onBeginningOfSpeech() { // speech input will be processed, so there is no need for count down anymore if (mIsCountDownOn) { mIsCountDownOn = false; mNoSpeechCountDown.cancel(); } //Log.d(TAG, "onBeginingOfSpeech"); //$NON-NLS-1$ } @Override public void onBufferReceived(byte[] buffer) { } @Override public void onEndOfSpeech() { //Log.d(TAG, "onEndOfSpeech"); //$NON-NLS-1$ } @Override public void onError(int error) { if (mIsCountDownOn) { mIsCountDownOn = false; mNoSpeechCountDown.cancel(); } mIsListening = false; Message message = Message.obtain(null, MSG_RECOGNIZER_START_LISTENING); try { mServerMessenger.send(message); } catch (RemoteException e) { } //Log.d(TAG, "error = " + error); //$NON-NLS-1$ } @Override public void onEvent(int eventType, Bundle params) { } @Override public void onPartialResults(Bundle partialResults) { } @Override public void onReadyForSpeech(Bundle params) { if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.JELLY_BEAN) { mIsCountDownOn = true; mNoSpeechCountDown.start(); } Log.d(TAG, "onReadyForSpeech"); //$NON-NLS-1$ } @Override public void onResults(Bundle results) { //Log.d(TAG, "onResults"); //$NON-NLS-1$ } @Override public void onRmsChanged(float rmsdB) { } } }

02/16/2013-アプリでText To Speechを使用する場合のビープ音を修正して、onResultsでSoloストリームを必ずオフにしてください

Nikolay Shmyrev · Answer

インターネットに接続せずに継続的なリッスンを本当に実装したい場合は、サードパーティのパッケージを検討する必要があります。それらの1つはCMUSphinxで、 Pocketsphinx Android demo オフラインで効率的にキーワードをリッスンし、キーフレーズ「oh mighty computer」のような特定のコマンドに反応します。これを行うコードは簡単です。

認識エンジンを作成し、キーワードスポッティング検索を追加するだけです。

recognizer = defaultSetup() .setAcousticModel(new File(modelsDir, "hmm/en-us-semi")) .setDictionary(new File(modelsDir, "lm/cmu07a.dic")) .setKeywordThreshold(1e-5f) .getRecognizer(); recognizer.addListener(this); recognizer.addKeywordSearch(KWS_SEARCH_NAME, KEYPHRASE); switchSearch(KWS_SEARCH_NAME);

リスナーを定義します。

@Override public void onPartialResult(Hypothesis hypothesis) { String text = hypothesis.getHypstr(); if (text.equals(KEYPHRASE)) // do something }

Eran Katsav · Answer

ビープ音を消そうとしている人は、@ HoanNguyenの回答を格付けしますが、これはAPIセットsetStreamSoloで述べられているように累積的であるため、音声認識にエラーがあり、エラーが発生すると呼び出されます（たとえば、インターネットに接続されていない場合）setStremSolo trueが何度も呼び出されます。これにより、アプリは電話全体をサイレンシングします（非常に悪い）。その解決策は、setStremMute（false）をspeechRecognizer onErrorに追加することです。

Gal Rom · Answer

私のデモアプリをチェックしてください： https://github.com/galrom/ContinuesVoiceRecognition

PockeySphixとSpeechRecognizerの両方を使用することをお勧めします。