私は、自然に聞こえるUbuntu用の簡単にインストールできるテキスト読み上げソフトウェアを探しています。 Festival
、Gespeaker
などをインストールしましたが、非常に自然に聞こえるものはありません。すべて非常に合成的で理解しにくい。
そこに何か推奨事項はありますか?
「SpeakIt」というGoogle Chrome拡張機能を使用して、最高のTTSソフトウェアを無料で見つけたと思います。これは、UbuntuのChromeブラウザーでのみ機能します。何らかの理由でChromiumで動作しません。 SpeakItには2つの女性の声が付属しており、どちらも他のすべてのものと比較して非常にリアルに聞こえます。クエリとして「TTS」を使用してChrome Webストアを検索する場合、Chrome拡張機能として少なくとも4つの男性と女性の声がリストされます。
使用法:ウェブサイトで使用します。読みたいテキストをハイライトし、「SpeakIt」を右クリックするか、ChromeトップバーにドッキングされているSpeakItアイコンをクリックします。
Firefoxユーザーには2つのオプションもあります。 Firefoxアドオン内で TTSの検索 を実行すると、「Click Speak」と「Text to Voice」が見つかるはずです。音声はChrome SpeakIt音声ほどではありませんが、間違いなく使用できます。
SpeakIt拡張機能はiSpeechテクノロジーを使用しており、年間20ドルの価格で、サイトはテキストをMP3オーディオファイルに変換できます。テキスト、URL、RSSフィード、TXT、DOC、PDFなどのドキュメントを入力し、MP3に出力できます。ポッドキャストを作成したり、オーディオを埋め込んだりできます。 リンクはこちら 、および オーディオのサンプル (リンクの持続時間はわかりません)。
非常にミニマルなTTSであり、espeakやmbrolaよりも優れたサウンドです(私の考えでは)。いくつかの情報 ここ 。
なぜpico2waveがespeakやmbrolaと比較して議論されることはほとんどないのかわかりません。小さいですが、本当にいい音です(自然)。変更しないと、自然な女性の声が聞こえます。
そして... Mbrolaと比較して、Unitsを認識し、正しい方法で話します!
例えば:
インストール後、スクリプトで使用します。
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
次に、目的のテキストで実行します。
<scriptname>.sh "hello world"
または、ファイル全体の内容を読み取ります。
<scriptname>.sh "$(cat <filename>)"
Ubuntuで軽量で安定したTTSを使用するのは以上です。
Picoとespeakは楽しく簡単に仕事に取り掛かることができますが、それほど良いものではありません。デフォルトのフェスティバルの声もあまり良くありません。ただし、Festivalはスキームベースの音声フレームワークであり、多くの研究者がはるかに優れたプラグイン音声を作成しています。これらの音声の1つは既製のパッケージとして利用できるため、ストックUbuntuでpico2waveの品質を簡単に超えることができます。
Festivalを自然な音にするには、次のようにします。
Sudo apt-get install festival
Sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
-b
(または--batch
)を使用し、各コマンドを単一引用符で囲むことにより、コマンドラインから実行できます。
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Nitechリポジトリから他の非常に良い声を得ることができますが、それらをインストールするのは細心の注意が必要であり、デフォルトのパスが変更されたため、バンドルされたスキームファイル内のファイル名参照を手動で編集してストックUbuntuで動作する必要があります。
プロジェクトページからの更新(2019-02):このプロジェクトは現在メンテナンスされておらず、当面の間はそのまま残ります
より良い代替手段がないため、私は bash script を作成しました。これは Michal FapsoによるPerlスクリプト と連動し、Google翻訳経由でTTSを提供します。プロジェクトの説明から:
その意図は、Googleの音声合成システムを介してテキスト音声出力への使いやすいインターフェースを提供することです。 pico2waveを使用するフォールバックオプションは、インターネット接続が見つからない場合にTTS合成を自動的に提供します。
現状では、ラッパーは標準入力、プレーンテキストファイル、およびX選択(強調表示されたテキスト)からの読み取りをサポートしています。
主な機能は次のとおりです。
インストールと使用方法は プロジェクトページ に記載されています。
試してみてよかったです。 バグレポートおよびその他のフィードバック 歓迎します!
私は、音声に合わせて最適に聞こえるテキストの研究を行っています。以下は、音質の順でトップ5の製品だと思ったもののリストです。これらの製品に関連するほとんどのWebサイトには、独自の判断を下すことができるインタラクティブなデモがあります。
SVOXツール(pico)をLibreOfficeと組み合わせる:
SVOX(pico)ツールは簡単にインストールでき、Ubuntuで高品質の音声を提供します。インストールしてください:
Sudo apt-get install libttspico0 libttspico-utils libttspico-data
"Read Text" extension をインストールすることにより、LibreOfficeをSVOX(pico)ツールと組み合わせて使用でき、この優れたTTSソフトウェアの "GUI"を取得できます。
Read Text Extensionのオプションを設定 withTools-Add-ons-Read selection ....Use/ usr/bin/python外部プログラムとして。トークン(PICO_READ_TEXT_PY)を含むコマンドラインオプションを選択します。それらのいくつかを試してみてください。
これで、LO Writer、Calc、Impress、Drawでテキストを選択し、ツールバーとして追加されたアイコン(バルーン付きの幸せそうな顔)をクリックするだけで済みます。
フェスティバルでのNitech HTSの声は非常に自然で、私が聞いた他のどの声よりも心地よいと思います。 このリンクを参照 フェスティバルでのNitechやその他のサウンドの設定方法について。これらのボイスを構成するために使用できる良いGUIは見つかりませんでしたが、festival.scmを使用して設定することはできます。その投稿は非常に古いため、「locate festival」コマンドを使用して実際のインストールディレクトリを検索することをお勧めします。
ここに私がやったことは、PDFや他のテキストファイルのための純粋な自然なスピーチです(他のソリューションは自然ではないか、単に有料サービスです)。これは実際には、クロムまたはchromeを使用した回避策ですが、高速かつ簡単に機能します。
chrome内の.docや.txtなどの他のファイルを開いて同じことを行う方法もあります。 pdfファイルを表示するchromeには他にも拡張機能があります。自分に合っているかどうかを確認してください。さらに、Googleドライブにあらゆる種類のテキストをアップロードして、SpeakItを使用できます。あなたのためにそれを読むために。 「テキストを話す」と呼ばれる別の拡張機能も同じように機能し、自然な音声を持ちます。
新しいfirefox 49ナラティブモードで使用するより良いttsエンジンを検索するとき、pico tts(svox)-私のお気に入りのTTSエンジン。
Sudo apt install espeak libttspico0 libttspico-data libttspico-utils
デフォルトの音声合成エンジンシステム全体を変更する方法
人々 Arch Linuxで 正しい道に私を導いた:
好きなモジュールのコメントを外し、音声ディスパッチ設定でデフォルトにします。
# Sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
デーモンを再起動します。
# Sudo systemctl restart speech-dispatcher.service
ただし、Firefoxを再度起動しても何も起こりません。上記のリンク(Archフォーラムの投稿#10および#16)によれば、フェスティバルで動作します(試しませんでした)が、picoの音声ディスパッチャには利用可能な音声がリストされていません。実行されません。
そこにあるアイデアは高く評価されます;-)
そのために Intelligent Speaker -Google Chromeの拡張機能を作成します。選択しなくてもページを読み取ることができます(テキストの保持が正しい場合)。
Pico、mbrola、cmu、festival、flite、すべて2017年にSUCK(90年代はすばらしかった)。 AT&Tの自然な音声(素晴らしい)はLinux互換ではなく、無料ではないため、Googleを使用します
git clone https://github.com/Glutanimate/simple-google-tts.git
Sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-Perl libwww-mechanize-Perl libhtml-tree-Perl so$
cd simple-google-tts
Sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
私のお気に入りの音声合成プログラムはMagic Englishと呼ばれますが、Joe Steigerが述べたNatural Readerのように、Windowsプログラムであり、Wineで実行されるかどうかはわかりません。
AT&T Natural Voices はオンラインでデモとして利用できますが、それは解決策というよりは回避策です...
gTTS(Google Text-to-Speech)、Pythonライブラリ、およびGoogle Translateのtext-to-スピーチAPI。音声
mp3
データをファイル、さらに音声操作のためのファイルのようなオブジェクト(バイト文字列)、またはstdout
に書き込みます。
Cons:CLIのみ。 Googleパブリックオープンエンドポイントにリクエストする必要があるため、オンラインである必要があります。
Sudo -H pip install gTTS # Install
使用法
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
一部はすでに言及されました
Mimic 。インストール:
Sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker(GUI) ( Gespeakerソースコード )
短所:古くてい
Sudo apt install espeak gespeaker