PythonでGoogle音声認識APIを使用するには？

Question

スタックオーバーフローは、この質問をするのに最適な場所ではないかもしれませんが、助けが必要です。 mp3ファイルがあり、Googleの音声認識を使用してそのファイルからテキストを取得したい。ドキュメントや例を見つけることができるすべてのアイデアが高く評価されます。

A STEFANI · Accepted Answer

Google Cloud Speech API をご覧ください。これにより、開発者は音声をテキストに変換できます[...] APIは80を超える言語とバリアントを認識します[...]無料アカウントを作成して、限られた量のAPIリクエスト。

の仕方：

最初にインストールする必要があります gcloud python module ＆ google-api-python-client module with：

pip install --upgrade gcloud pip install --upgrade google-api-python-client

次に、Cloud Platform Consoleで、[プロジェクト]ページに移動し、新しいプロジェクトを選択または作成します。プロジェクトの課金を有効にする必要がある場合、 Cloud Speech APIを有効にする。

Google Cloud Speech APIを有効にした後、[資格情報に移動]ボタンをクリックして、Cloud Speech API資格情報を設定します

コードからCloud Speech APIサービスを認証する方法については、サービスアカウントのセットアップを参照してください

サービスアカウントキーファイル（JSON形式）とGOOGLE_APPLICATION_CREDENTIALS環境変数の両方を取得して、Speech APIへの認証を許可する必要があります。

すべて完了したら、音声生ファイルをダウンロード googleから speech-discovery_google_rest_v1.json googleからも

以前にダウンロードしたJSONファイルを変更して資格情報キーを設定し、GOOGLE_APPLICATION_CREDENTIALS環境変数が.jsonファイルのフルパスに設定されていることを確認します。

export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json

また

GCLOUD_PROJECT環境変数がGoogle CloudプロジェクトのIDに設定されていることを確認してください：

export GCLOUD_PROJECT=your-project-id

すべて完了したと仮定して、tutorial.pyを作成できます以下を含むファイル

import argparse import base64 import json from googleapiclient import discovery import httplib2 from oauth2client.client import GoogleCredentials DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?' 'version={apiVersion}') def get_speech_service(): credentials = GoogleCredentials.get_application_default().create_scoped( ['https://www.googleapis.com/auth/cloud-platform']) http = httplib2.Http() credentials.authorize(http) return discovery.build( 'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL) def main(speech_file): """Transcribe the given audio file. Args: speech_file: the name of the audio file. """ with open(speech_file, 'rb') as speech: speech_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service.speech().syncrecognize( body={ 'config': { 'encoding': 'LINEAR16', # raw 16-bit signed LE samples 'sampleRate': 16000, # 16 khz 'languageCode': 'en-US', # a BCP-47 language tag }, 'audio': { 'content': speech_content.decode('UTF-8') } }) response = service_request.execute() print(json.dumps(response)) if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument( 'speech_file', help='Full path of audio file to be recognized') args = parser.parse_args() main(args.speech_file)

次に実行します：

python tutorial.py audio.raw