そこで、SFSpeechRecognizerを使用して音声認識を行い、変換された音声をテキストに変換した音声を画面のUITextViewに表示する簡単なアプリを作成しました。今、私は電話に表示されたテキストを話させようとしています。なんらかの理由で動作しません。 AVSpeechSynthesizerのspeak機能は、SFSpeechRecognizerが使用される前にのみ機能します。たとえば、アプリを起動すると、UITextViewにウェルカムテキストが表示されます。話すボタンをタップすると、電話がウェルカムテキストを読み上げます。次に、(音声認識のために)録音すると、認識された音声がUITextViewに表示されます。今、私は電話にそのテキストを話してもらいたいのですが、残念ながらそうではありません。
これがコードです
import UIKit
import Speech
import AVFoundation
class ViewController: UIViewController, SFSpeechRecognizerDelegate, AVSpeechSynthesizerDelegate {
@IBOutlet weak var textView: UITextView!
@IBOutlet weak var microphoneButton: UIButton!
private let speechRecognizer = SFSpeechRecognizer(locale: Locale.init(identifier: "en-US"))!
private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?
private var recognitionTask: SFSpeechRecognitionTask?
private let audioEngine = AVAudioEngine()
override func viewDidLoad() {
super.viewDidLoad()
microphoneButton.isEnabled = false
speechRecognizer.delegate = self
SFSpeechRecognizer.requestAuthorization { (authStatus) in
var isButtonEnabled = false
switch authStatus {
case .authorized:
isButtonEnabled = true
case .denied:
isButtonEnabled = false
print("User denied access to speech recognition")
case .restricted:
isButtonEnabled = false
print("Speech recognition restricted on this device")
case .notDetermined:
isButtonEnabled = false
print("Speech recognition not yet authorized")
}
OperationQueue.main.addOperation() {
self.microphoneButton.isEnabled = isButtonEnabled
}
}
}
@IBAction func speakTapped(_ sender: UIButton) {
let string = self.textView.text
let utterance = AVSpeechUtterance(string: string!)
let synthesizer = AVSpeechSynthesizer()
synthesizer.delegate = self
synthesizer.speak(utterance)
}
@IBAction func microphoneTapped(_ sender: AnyObject) {
if audioEngine.isRunning {
audioEngine.stop()
recognitionRequest?.endAudio()
microphoneButton.isEnabled = false
microphoneButton.setTitle("Start Recording", for: .normal)
} else {
startRecording()
microphoneButton.setTitle("Stop Recording", for: .normal)
}
}
func startRecording() {
if recognitionTask != nil { //1
recognitionTask?.cancel()
recognitionTask = nil
}
let audioSession = AVAudioSession.sharedInstance() //2
do {
try audioSession.setCategory(AVAudioSessionCategoryRecord)
try audioSession.setMode(AVAudioSessionModeMeasurement)
try audioSession.setActive(true, with: .notifyOthersOnDeactivation)
} catch {
print("audioSession properties weren't set because of an error.")
}
recognitionRequest = SFSpeechAudioBufferRecognitionRequest() //3
guard let inputNode = audioEngine.inputNode else {
fatalError("Audio engine has no input node")
} //4
guard let recognitionRequest = recognitionRequest else {
fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")
} //5
recognitionRequest.shouldReportPartialResults = true //6
recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in //7
var isFinal = false //8
if result != nil {
self.textView.text = result?.bestTranscription.formattedString //9
isFinal = (result?.isFinal)!
}
if error != nil || isFinal { //10
self.audioEngine.stop()
inputNode.removeTap(onBus: 0)
self.recognitionRequest = nil
self.recognitionTask = nil
self.microphoneButton.isEnabled = true
}
})
let recordingFormat = inputNode.outputFormat(forBus: 0) //11
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
self.recognitionRequest?.append(buffer)
}
audioEngine.prepare() //12
do {
try audioEngine.start()
} catch {
print("audioEngine couldn't start because of an error.")
}
textView.text = "Say something, I'm listening!"
}
func speechRecognizer(_ speechRecognizer: SFSpeechRecognizer, availabilityDidChange available: Bool) {
if available {
microphoneButton.isEnabled = true
} else {
microphoneButton.isEnabled = false
}
}
}
問題は、音声認識を開始するときに、オーディオセッションカテゴリを録音に設定していることです。 Recordのオーディオセッションでは、オーディオ(音声合成を含む)を再生することはできません。
startRecording
メソッドのこの行を次のように変更する必要があります。
try audioSession.setCategory(AVAudioSessionCategoryRecord)
に:
try audioSession.setCategory(AVAudioSessionCategoryPlayAndRecord)
この問題を修正するには、以下のコードを使用してください。
let audioSession = AVAudioSession.sharedInstance()
do {
try audioSession.setCategory(AVAudioSessionCategoryPlayback)
try audioSession.setMode(AVAudioSessionModeDefault)
} catch {
print("audioSession properties weren't set because of an error.")
}
Here, we have to use the above code in the following way:
@IBAction func microphoneTapped(_ sender: AnyObject) {
if audioEngine.isRunning {
audioEngine.stop()
recognitionRequest?.endAudio()
let audioSession = AVAudioSession.sharedInstance()
do {
try audioSession.setCategory(AVAudioSessionCategoryPlayback)
try audioSession.setMode(AVAudioSessionModeDefault)
} catch {
print("audioSession properties weren't set because of an error.")
}
microphoneButton.isEnabled = false
microphoneButton.setTitle("Start Recording", for: .normal)
} else {
startRecording()
microphoneButton.setTitle("Stop Recording", for: .normal)
}
}
ここで、audioengineを停止した後、audioSessionCategoryからAVAudioSessionCategoryPlaybackおよびaudioSession ModeからAVAudioSessionModeDefault。次に、次のテキスト読み上げメソッドを呼び出すと、正常に機能します。
sTTを使用する場合は、次のように設定する必要があります。
AVAudioSession *avAudioSession = [AVAudioSession sharedInstance];
if (avAudioSession) {
[avAudioSession setCategory:AVAudioSessionCategoryRecord error:nil];
[avAudioSession setMode:AVAudioSessionModeMeasurement error:nil];
[avAudioSession setActive:true withOptions:AVAudioSessionSetActiveOptionNotifyOthersOnDeactivation error:nil];
}
TTSを使用する場合は、次のようにAudioSessionを再度設定します。
[regRequest endAudio];
AVAudioSession *avAudioSession = [AVAudioSession sharedInstance];
if (avAudioSession) {
[avAudioSession setCategory:AVAudioSessionCategoryPlayback error:nil];
[avAudioSession setMode:AVAudioSessionModeDefault error:nil];
}
それは私にとって完璧に機能します。また、LOWAUDIOの問題も解決されました。
これを試して:
audioSession.setCategory(AVAudioSessionCategoryRecord)