私はカスタマーケアデータの音声感情分析に取り組んでいます。カスタマーケア担当者が質問し、顧客がレビューを行った音声ファイルがあります。
この音声を分割し、顧客が満足しているか、悲しんでいるか、中立であるかにかかわらず、感情分析を行うために顧客からレビュー部分のみを取得する必要があります。
お客様の音声のみを取得するために音声ファイルを分割する方法を教えてください。音声は「.aac」の形式です
これまでのところ、これは私が行ったことです:
from os import path
AUDIO_FILE = path.join(path.dirname(path.realpath('C:\\Users\\anagha\\Documents\\Python Scripts')),"Python Scripts\\audioa.aac")
halfway_point = len(AUDIO_FILE) / 2
pydubタグを使用したので、pydubでそれを行う方法は次のとおりです。
from pydub import AudioSegment
sound = AudioSegment.from_file(AUDIO_FILE)
halfway_point = len(sound) // 2
first_half = sound[:halfway_point]
# create a new file "first_half.mp3":
first_half.export("/path/to/first_half.mp3", format="mp3")
元の質問に答えるには遅すぎると思いますが、この質問に出くわした人は、この手順が役立つかもしれません。
->ツールを使用してデータをダイアライズします。私はLIUMを使用しました( http://www-lium.univ-lemans.fr/diarization/doku.php )
->この美しくシンプルなSO post( LIUMスピーカーのダイアリゼーション出力の解析 )に基づいて出力を解釈します
最後に、上記で取得したタイミングを使用して、オーディオファイルをスプライスします。ただし、音声をテキストに変換することはまったく別の課題であり、深いアプローチ(大量のデータを使用)またはAPIプロバイダー(Googleなど)への依存が必要になります。