web-dev-qa-db-ja.com

テキストから音声への自然な響き?

私は、自然に聞こえるUbuntu用の簡単にインストールできるテキスト読み上げソフトウェアを探しています。 FestivalGespeakerなどをインストールしましたが、非常に自然に聞こえるものはありません。すべて非常に合成的で理解しにくい。

そこに何か推奨事項はありますか?

84
I Heart Ubuntu

SpeakIt!

「SpeakIt」というGoogle Chrome拡張機能を使用して、最高のTTSソフトウェアを無料で見つけたと思います。これは、UbuntuのChromeブラウザーでのみ機能します。何らかの理由でChromiumで動作しません。 SpeakItには2つの女性の声が付属しており、どちらも他のすべてのものと比較して非常にリアルに聞こえます。クエリとして「TTS」を使用してChrome Webストアを検索する場合、Chrome拡張機能として少なくとも4つの男性と女性の声がリストされます。

使用法:ウェブサイトで使用します。読みたいテキストをハイライトし、「SpeakIt」を右クリックするか、ChromeトップバーにドッキングされているSpeakItアイコンをクリックします。


Firefoxユーザーには2つのオプションもあります。 Firefoxアドオン内で TTSの検索 を実行すると、「Click Speak」と「Text to Voice」が見つかるはずです。音声はChrome SpeakIt音声ほどではありませんが、間違いなく使用できます。

SpeakIt拡張機能はiSpeechテクノロジーを使用しており、年間20ドルの価格で、サイトはテキストをMP3オーディオファイルに変換できます。テキスト、URL、RSSフィード、TXT、DOC、PDFなどのドキュメントを入力し、MP3に出力できます。ポッドキャストを作成したり、オーディオを埋め込んだりできます。 リンクはこちら 、および オーディオのサンプル (リンクの持続時間はわかりません)。

22
I Heart Ubuntu

SVOX pico2wave

非常にミニマルなTTSであり、espeakやmbrolaよりも優れたサウンドです(私の考えでは)。いくつかの情報 ここ

なぜpico2waveがespeakやmbrolaと比較して議論されることはほとんどないのかわかりません。小さいですが、本当にいい音です(自然)。変更しないと、自然な女性の声が聞こえます。

そして... Mbrolaと比較して、Unitsを認識し、正しい方法で話します!
例えば:

  • 2°C→2度
  • 2m→2メートル
  • 2kg→2キログラム

インストール後、スクリプトで使用します。

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

次に、目的のテキストで実行します。

<scriptname>.sh "hello world"

または、ファイル全体の内容を読み取ります。

<scriptname>.sh "$(cat <filename>)"

Ubuntuで軽量で安定したTTSを使用するのは以上です。

50
user85321

Picoとespeakは楽しく簡単に仕事に取り掛かることができますが、それほど良いものではありません。デフォルトのフェスティバルの声もあまり良くありません。ただし、Festivalはスキームベースの音声フレームワークであり、多くの研究者がはるかに優れたプラグイン音声を作成しています。これらの音声の1つは既製のパッケージとして利用できるため、ストックUbuntuでpico2waveの品質を簡単に超えることができます。

Festivalを自然な音にするには、次のようにします。

Sudo apt-get install festival
Sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

-b(または--batch)を使用し、各コマンドを単一引用符で囲むことにより、コマンドラインから実行できます。

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Nitechリポジトリから他の非常に良い声を得ることができますが、それらをインストールするのは細心の注意が必要であり、デフォルトのパスが変更されたため、バンドルされたスキームファイル内のファイル名参照を手動で編集してストックUbuntuで動作する必要があります。

14
Jon Watte

Simple Google™TTS

プロジェクトページからの更新(2019-02)このプロジェクトは現在メンテナンスされておらず、当面の間はそのまま残ります


より良い代替手段がないため、私は bash script を作成しました。これは Michal FapsoによるPerlスクリプト と連動し、Google翻訳経由でTTSを提供します。プロジェクトの説明から:

その意図は、Googleの音声合成システムを介してテキスト音声出力への使いやすいインターフェースを提供することです。 pico2waveを使用するフォールバックオプションは、インターネット接続が見つからない場合にTTS合成を自動的に提供します。

現状では、ラッパーは標準入力、プレーンテキストファイル、およびX選択(強調表示されたテキスト)からの読み取りをサポートしています。

主な機能は次のとおりです。

  • google Translateを介したオンラインTTS合成
  • pico2waveを介したオフラインTTS合成
  • さまざまな言語をサポート
  • cLI、テキストファイル、および強調表示されたテキストから読み取ることができます
  • 固定フォーマットで強調表示されたテキストの読み取りをサポートします(例:PDFファイル)

インストールと使用方法は プロジェクトページ に記載されています。

試してみてよかったです。 バグレポートおよびその他のフィードバック 歓迎します!

12
Glutanimate

私は、Ubuntuの高品質のテキスト読み上げの高低を確認しました。なにもない。私の声帯は麻痺しているため、音声指示を buntuビデオ に追加するにはTTSが必要でした。市販の高品質のLinuxテキスト読み上げソフトウェアを入手できます こちら 。それは本当に高価です。私は、40ドルでNatural Reader for Windows(UbuntuではWineでは動作しません)を購入することになりました。たぶん、後でLinuxを手に入れるでしょう。

8
Joe Steiger

私は、音声に合わせて最適に聞こえるテキストの研究を行っています。以下は、音質の順でトップ5の製品だと思ったもののリストです。これらの製品に関連するほとんどのWebサイトには、独自の判断を下すことができるインタラクティブなデモがあります。

  1. NeoSpeech
  2. iVona
  3. アカペラ
  4. AT&T Natural Voices
  5. CereProc Voices
6
Jim

SVOXツール(pico)をLibreOfficeと組み合わせる:

SVOX(pico)ツールは簡単にインストールでき、Ubuntuで高品質の音声を提供します。インストールしてください:

Sudo apt-get install libttspico0 libttspico-utils libttspico-data

"Read Text" extension をインストールすることにより、LibreOfficeをSVOX(pico)ツールと組み合わせて使用​​でき、この優れたTTSソフトウェアの "GUI"を取得できます。

Read Text Extensionのオプションを設定 withTools-Add-ons-Read selection ....Use/ usr/bin/python外部プログラムとして。トークン(PICO_READ_TEXT_PY)を含むコマンドラインオプションを選択します。それらのいくつかを試してみてください。

これで、LO Writer、Calc、Impress、Drawでテキストを選択し、ツールバーとして追加されたアイコン(バルーン付きの幸せそうな顔)をクリックするだけで済みます。

5
leoperbo

フェスティバルでのNitech HTSの声は非常に自然で、私が聞いた他のどの声よりも心地よいと思います。 このリンクを参照 フェスティバルでのNitechやその他のサウンドの設定方法について。これらのボイスを構成するために使用できる良いGUIは見つかりませんでしたが、festival.scmを使用して設定することはできます。その投稿は非常に古いため、「locate festival」コマンドを使用して実際のインストールディレクトリを検索することをお勧めします。

5
razor

ここに私がやったことは、PDFや他のテキストファイルのための純粋な自然なスピーチです(他のソリューションは自然ではないか、単に有料サービスです)。これは実際には、クロムまたはchromeを使用した回避策ですが、高速かつ簡単に機能します。

  1. chromeまたはクロムに SpeakIt! 拡張機能をインストールします。
  2. インストール PDFビューアー クロムを使用している場合(クロムには既に無料でpdfビューアーがあります)、クロムの拡張機能設定で「シークレットモードで許可」および「ファイルURLへのアクセスを許可」オプションをオンにします。
  3. PDFをブラウザにドラッグアンドドロップします。
  4. テキストをハイライトし、右クリックしてSpeakItを選択します!純粋な自然なテキスト読み上げを聞くことができます。

chrome内の.docや.txtなどの他のファイルを開いて同じことを行う方法もあります。 pdfファイルを表示するchromeには他にも拡張機能があります。自分に合っているかどうかを確認してください。さらに、Googleドライブにあらゆる種類のテキストをアップロードして、SpeakItを使用できます。あなたのためにそれを読むために。 「テキストを話す」と呼ばれる別の拡張機能も同じように機能し、自然な音声を持ちます。

4
Pouya Sanooei

新しいfirefox 49ナラティブモードで使用するより良いttsエンジンを検索するとき、pico tts(svox)-私のお気に入りのTTSエンジン。

Sudo apt install espeak libttspico0 libttspico-data libttspico-utils

デフォルトの音声合成エンジンシステム全体を変更する方法

人々 Arch Linuxで 正しい道に私を導いた:

好きなモジュールのコメントを外し、音声ディスパッチ設定でデフォルトにします。

# Sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

デーモンを再起動します。

# Sudo systemctl restart speech-dispatcher.service

ただし、Firefoxを再度起動しても何も起こりません。上記のリンク(Archフォーラムの投稿#10および#16)によれば、フェスティバルで動作します(試しませんでした)が、picoの音声ディスパッチャには利用可能な音声がリストされていません。実行されません。

そこにあるアイデアは高く評価されます;-)

2
apos

そのために Intelligent Speaker -Google Chromeの拡張機能を作成します。選択しなくてもページを読み取ることができます(テキストの保持が正しい場合)。

1

Simple Google™TTS

Pico、mbrola、cmu、festival、flite、すべて2017年にSUCK(90年代はすばらしかった)。 AT&Tの自然な音声(素晴らしい)はLinux互換ではなく、無料ではないため、Googleを使用します

git clone https://github.com/Glutanimate/simple-google-tts.git
Sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-Perl libwww-mechanize-Perl libhtml-tree-Perl so$
cd simple-google-tts
Sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
1
Jonathan

私のお気に入りの音声合成プログラムはMagic Englishと呼ばれますが、Joe Steigerが述べたNatural Readerのように、Windowsプログラムであり、Wineで実行されるかどうかはわかりません。

AT&T Natural Voices はオンラインでデモとして利用できますが、それは解決策というよりは回避策です...

1
Chris Granger

gTTS

gTTSGoogle Text-to-Speech)、Pythonライブラリ、およびGoogle Translateのtext-to-スピーチAPI。音声mp3データをファイル、さらに音声操作のためのファイルのようなオブジェクト(バイト文字列)、またはstdoutに書き込みます。

Cons:CLIのみ。 Googleパブリックオープンエンドポイントにリクエストする必要があるため、オンラインである必要があります。

Sudo -H pip install gTTS  # Install

使用法

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

ドキュメントおよびその他の例

その他

一部はすでに言及されました

1
Pablo Bianchi