web-dev-qa-db-ja.com

いくつかのキーワードに一致するiOS用の現在の最高の音声認識APIは何ですか?

音声認識を可能にするiOS用のAPI(理想的には無料)を探しています。私はこれに関するいくつかの投稿を見ました: iPhone音声認識API? および iOS用の無料音声認識エンジン? そして少し見通しを立てた後、私は非常に興味深いように見えるSDKを集めました:

群衆の中で本当に目立ち、ごく最近のものはありますか?それらはどのように本当に互いに区別されますか?

17
tiguero

ほんの少しのキーワードを追跡したい場合は、音声認識APIまたはサービスを探すべきではありません。このタスクはキーワードスポッティングと呼ばれ、音声認識とは異なるアルゴリズムを使用します。音声認識は、言われたすべての単語を見つけようとします。そのため、キーワードスポッティングよりもはるかに多くのリソースを消費します。キーワードスポッターは、選択された少数のキーワードまたはキーフレーズのみを検索しようとします。非常にシンプルで、リソースの消費も少なくて済みます。

この機能をアーカイブするための唯一の可能な解決策は、Pocketsphinxを搭載したOpenEarsのようなオープンソースパッケージを使用することです。

http://www.politepix.com/openears

Openearsには、同様のものを実装するRejectoプラグインがあります。

Pocketsphinx自体も最近、オープンソースの効果的なキーワードスポッティングを実装しましたが、まだオープナーには入りませんでした。これはpocketsphinxAPIを介してのみ利用可能であり、kws検索を作成し、検索するターゲットWordを設定する必要があります。この機能がOpenEarsにもすぐに届くことを願っています。

16
Nikolay Shmyrev

Nuanceは開発者に無料アクセスを提供します(ただし、大量の場合は不可) http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-を参照) free-access-to-Dragon.html または http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home

ニュアンスサービスは通常、商業的に提供され、前払い手数料と取引手数料が必要です。上記の興味深いニュースは、開発者が無料でサービスを少量使用できるようになったことです。したがって、開発、テスト、およびデモンストレーションには、おそらく無料のNuanceサービスを使用できます。ただし、Androidで無料で提供されるGoogleサービスとは異なり、アプリに数千人のユーザーがいる場合は、Nuanceサービスの料金を支払う必要があります。

3
Michael Levy

私たちは2008年からCeedVocalSDKを開発しており、これはJulius&FLiteオープンソースプロジェクトに基づいています。

コンテキストは次のとおりです。2008年に音声認識用のアプリ(Vocalia)を作成したかったので、基本的にJuliusを選択し(Pocket Sphinxでも問題ないようです)、ファイル形式を最適化して1-で起動するようにしました。オリジナルのiPhoneでは20秒ではなく2秒。次に、6つの言語で独自の音響モデルを忠実にトレーニングしました。 APIを設計し、最終的に他の開発者にSDKとして提供することにしました。

CeedVocalは、基本的に2つの操作モードをサポートしています。

  1. 単語(または小さなフレーズ)のマッチング
  2. キーワードスポッティング

最初の操作モードでは、入力音声を、受け入れ可能な入力のリスト内の単語(またはフレーズ)に揃えようとします。これにより、スピーチが別のものであっても、既知の単語への入力が強制されます。精度は良いです。 2番目の操作モードでは、キーワードの1つを音声ストリームに選択しようとします。これは難しいケースであり、精度が低下する可能性があります。

2
rsebbe