現在、Java Text to Speech(TTS)フレームワークを探しています。調査中に、いくつかのJSAPI1.0 部分的)互換フレームワークが---( JSAPI実装ページ 、およびJava JSAPI仕様に従っていないように見えるTTSフレームワークのペア( Mary 、 Say-It -Now )。JSAPIのリファレンス実装は現在存在しないことにも注意しました。
FreeTTS(JSAPI implsページに最初にリストされている)で行った簡単なテストは、単純で明白な単語(例:ABC、黒板)を読むには程遠いことを示しています。他のテストは現在進行中です。
そして、ここに質問があります(6、実際):
コメントと提案を事前にありがとうございます。
私は実際に FreeTTS でかなり幸運に恵まれました
Google翻訳には秘密のtts APIがあります。 https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World
実際、大きな選択肢はありません。
Pure Java:
また、次のような独自のプログラムもあります。
ソフトウェアがWindowsのみの場合、Microsoft Speech APIを使用できます。
私は以前にメアリーを使ったことがあり、声の質に非常に感銘を受けました。残念ながら、私は他のどれも使用していません。
ATT Natural Voices を使用しました。これはJSAPIおよびMS SAPIフックを提供します。優れた品質の音声、優れた「一般的な」音声辞書、発音の多くの制御、および複数の言語を提供します。それは少し高価ですが、非常にうまく機能します。
重要なセンサーテレメトリーをモバイルセンサーアプリケーションのドライバーに読み取るために使用しました。音声品質について不満はありませんでした。科学用語では約75%の標準精度であり、通常の対話でははるかに高い(おそらく90%+)ものでした。マークアップを使用することで、最大約99 +%の精度が得られました(ほとんどのエラーは、特殊な音素の組み合わせを使用した科学用語にありました)。
プロセッサ上では少し大変でした(Pentium-IIIと同等のマシンで実行しており、ピークCPUの50%-75%をプッシュしていました)。これは、Javaインターフェイスを持つネイティブ音声エンジン(Windows、Linux、およびMac互換)を使用します。
多種多様な音声と言語があります...
私はメアリーに貢献しました。 someone私がHMM音声をコアから分離するよりも賢い場合、その可能性があると感じます(これらの音声は大きなデータセットを必要とせず、大丈夫です)。また、Wordが言ったときにイベントを送信するイベントシステムをfreettsにしようとしています。私は成功しましたが、今はLinuxで壊れています。 (おそらくタイマーのバグが原因です)。
FreeTTSを使用しましたが、MBrolaの音声をMacbookProで実行するのに大きな問題がありました。私は、MBrolaの音声をWindows(苦痛に)とLinuxで実行することができました。 FreeTTSに他の音声パッケージを読み込むことはできませんでした。これは、提供された音声が恐ろしいIMOであるため残念です。それ以外では、Cloudgardenでも少し成功しましたが、Windows AFAIKでのみ動作します。この種の作業は特に難しいので、音声エンジンで他の人の成功/失敗を聞きたいと思います。また、Sphinx4を少しいじっています。昨夜、JVXML(Sphinx4に基づいているようです)をプルダウンしましたが、何らかの奇妙な理由で実行できませんでした。
みんなありがとう、トリックはFreeTTSソースにあります。簡単に説明すると、Java -jar freetts.jar some-more-args-here
として実行される場合、bin/Server.jarおよびbin/Client.jarの方法で実行される場合よりも単語のスペルが少なくなります。
MarryTTS にはあまり慣れていないことがわかりました。多言語でわかりやすい声を持っています。
Tは音声をテキストに変換します。より良いオプションは sphinx4-5prealpha です。調整可能、柔軟性、および変更可能な認識機能とグラマーを備えているため、私は親指を1つ挙げます。