web-dev-qa-db-ja.com

Java:テキスト読み上げエンジンの概要

現在、Java Text to Speech(TTS)フレームワークを探しています。調査中に、いくつかのJSAPI1.0 部分的)互換フレームワークが---( JSAPI実装ページ 、およびJava JSAPI仕様に従っていないように見えるTTSフレームワークのペア( MarySay-It -Now )。JSAPIのリファレンス実装は現在存在しないことにも注意しました。

FreeTTS(JSAPI implsページに最初にリストされている)で行った簡単なテストは、単純で明白な単語(例:ABC、黒板)を読むには程遠いことを示しています。他のテストは現在進行中です。

そして、ここに質問があります(6、実際):

  1. どのJavaベースのTTSフレームワークを使用しましたか?
  2. あなたの意見では、どれが最大の単語ベースを読むことができますか?
  3. 音声品質はどうですか?
  4. 彼らのパフォーマンスはどうですか?
  5. Javaバインディングを持つ非Javaフレームワークはシーンにありますか?
  6. どれをお勧めしますか?

コメントと提案を事前にありがとうございます。

51
DiaWorD

私は実際に FreeTTS でかなり幸運に恵まれました

18
pfranza

Google翻訳には秘密のtts APIがあります。 https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World

14
nvrandow

実際、大きな選択肢はありません。

  • 祭り、最も古い。 C++で記述されていますが、Javaにバインドされています。
  • eSpeak、迅速かつシンプル、Google翻訳で使用
  • ンブロラ

Pure Java:

  • Festivalからコードが移植されたFreeTTSは、その後オープンソース化され、開発は中止されました。
  • MaryTTS-より強力で、生産準備が整っているように見えます。

また、次のような独自のプログラムもあります。

  • アカペラ
  • Nuance Vocalizer

ソフトウェアがWindowsのみの場合、Microsoft Speech APIを使用できます。

7
stokito

私は以前にメアリーを使ったことがあり、声の質に非常に感銘を受けました。残念ながら、私は他のどれも使用していません。

7
Ryan

ATT Natural Voices を使用しました。これはJSAPIおよびMS SAPIフックを提供します。優れた品質の音声、優れた「一般的な」音声辞書、発音の多くの制御、および複数の言語を提供します。それは少し高価ですが、非常にうまく機能します。

重要なセンサーテレメトリーをモバイルセンサーアプリケーションのドライバーに読み取るために使用しました。音声品質について不満はありませんでした。科学用語では約75%の標準精度であり、通常の対話でははるかに高い(おそらく90%+)ものでした。マークアップを使用することで、最大約99 +%の精度が得られました(ほとんどのエラーは、特殊な音素の組み合わせを使用した科学用語にありました)。

プロセッサ上では少し大変でした(Pentium-IIIと同等のマシンで実行しており、ピークCPUの50%-75%をプッシュしていました)。これは、Javaインターフェイスを持つネイティブ音声エンジン(Windows、Linux、およびMac互換)を使用します。

多種多様な音声と言語があります...

5
James Schek

私はメアリーに貢献しました。 someone私がHMM音声をコアから分離するよりも賢い場合、その可能性があると感じます(これらの音声は大きなデータセットを必要とせず、大丈夫です)。また、Wordが言ったときにイベントを送信するイベントシステムをfreettsにしようとしています。私は成功しましたが、今はLinuxで壊れています。 (おそらくタイマーのバグが原因です)。

1
i30817

FreeTTSを使用しましたが、MBrolaの音声をMacbookProで実行するのに大きな問題がありました。私は、MBrolaの音声をWindows(苦痛に)とLinuxで実行することができました。 FreeTTSに他の音声パッケージを読み込むことはできませんでした。これは、提供された音声が恐ろしいIMOであるため残念です。それ以外では、Cloudgardenでも少し成功しましたが、Windows AFAIKでのみ動作します。この種の作業は特に難しいので、音声エンジンで他の人の成功/失敗を聞きたいと思います。また、Sphinx4を少しいじっています。昨夜、JVXML(Sphinx4に基づいているようです)をプルダウンしましたが、何らかの奇妙な理由で実行できませんでした。

1
Cliff

みんなありがとう、トリックはFreeTTSソースにあります。簡単に説明すると、Java -jar freetts.jar some-more-args-hereとして実行される場合、bin/Server.jarおよびbin/Client.jarの方法で実行される場合よりも単語のスペルが少なくなります。

1
DiaWorD

MarryTTS にはあまり慣れていないことがわかりました。多言語でわかりやすい声を持っています。

Tは音声をテキストに変換します。より良いオプションは sphinx4-5prealpha です。調整可能、柔軟性、および変更可能な認識機能とグラマーを備えているため、私は親指を1つ挙げます。

0
susan097