chromeでマイクを使用してから生のオーディオを取得するためにストリーミングする方法は?getgetオーディオをリニア16で取得する必要がある。
残念ながら、MediaRecorderは生のPCMキャプチャをサポートしていません。 (私の意見では、悲しい見落としです。)したがって、生のサンプルを取得し、自分でバッファリング/保存する必要があります。
ScriptProcessorNode でこれを行うことができます。通常、これはNodeは、カスタムエフェクトなどのために、プログラムでオーディオデータを変更するために使用されます。ただし、キャプチャポイントとして使用できないだけの理由はありません。テストされていませんが、このコードのようなもの:
const captureNode = audioContext.createScriptProcessor(8192, 1, 1);
captureNode.addEventListener('audioprocess', (e) => {
const rawLeftChannelData = inputBuffer.getChannelData(0);
// rawLeftChannelData is now a typed array with floating point samples
});
(より完全な例は [〜#〜] mdn [〜#〜] にあります。)
これらの浮動小数点サンプルはゼロ0
を中心とし、理想的には-1
および1
にバインドされます。整数の範囲に変換するときは、値をこの範囲にクランプして、それを超える範囲を切り取ります。 (大きな音がブラウザーで混合されると、値が-1
および1
を超えることがあります。理論上、ブラウザーは、その範囲を超える可能性のある外部サウンドデバイスからのfloat32サンプルも記録できます、しかし私はこれを行うブラウザ/プラットフォームを知りません。)
整数に変換する場合、値が符号付きか符号なしかが重要です。署名されている場合、16ビットの場合、範囲は-32768
〜32767
です。未署名の場合は、0
から65535
です。使用する形式を見つけ、-1
から1
の値をその範囲までスケーリングします。
この変換に関する最後の注意点は...エンディアンが重要な場合があります。参照: https://stackoverflow.com/a/7870190/362536
明確で意味のある2つの例は次のとおりです。
AWSラボ: https://github.com/awslabs/aws-Lex-browser-audio-capture/blob/master/lib/worker.js
AWSリソースは非常に優れています。録音したオーディオを「PCMとしてエンコードされたWAV形式」にエクスポートする方法を示します。 AWSが提供する文字起こしサービスであるAmazon Lexでは、オーディオをPCMでエンコードし、WAVコンテナーにラップする必要があります。あなたはそれをあなたのために機能させるためにコードのいくつかを単に適応させることができます! AWSには、記録に影響を与えずにサンプルレートを変更できる「ダウンサンプリング」などの追加機能があります。
RecordRTC: https://github.com/muaz-khan/RecordRTC/blob/master/simple-demos/raw-pcm.html
RecordRTCは完全なライブラリです。もう一度、彼らのコードを適応させるか、オーディオを生のPCMにエンコードするコードのスニペットを見つけることができます。ライブラリを実装して、コードをそのまま使用することもできます。このライブラリでオーディオ設定に「desiredSampleRate」オプションを使用すると、録音に悪影響を及ぼします。
どちらも優れたリソースであり、質問を確実に解決することができます。
MediaDevices.getUserMedia() APIの MediaTrackConstraints.sampleSize プロパティを確認する必要があります。 sampleSize
制約を使用して、オーディオハードウェアで許可されている場合は、サンプルサイズを16ビットに設定できます。
実装に関する限り、リンクとGoogleの目的はそうです...
これは、マイクを使用して生のオーディオをキャプチャして再生するWebオーディオAPIです(このページを実行する前に音量を下げます)...生のオーディオのスニペットをPCM形式で表示しますブラウザコンソールを表示します...このPCMをFFTの呼び出しに送信して、オーディオカーブの周波数ドメインと時間ドメインを取得します
<html><head><meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
<title>capture microphone then show time & frequency domain output</title>
<script type="text/javascript">
var webaudio_tooling_obj = function () {
var audioContext = new AudioContext();
console.log("audio is starting up ...");
var BUFF_SIZE_RENDERER = 16384;
var SIZE_SHOW = 3; // number of array elements to show in console output
var audioInput = null,
microphone_stream = null,
gain_node = null,
script_processor_node = null,
script_processor_analysis_node = null,
analyser_node = null;
if (!navigator.getUserMedia)
navigator.getUserMedia = navigator.getUserMedia || navigator.webkitGetUserMedia ||
navigator.mozGetUserMedia || navigator.msGetUserMedia;
if (navigator.getUserMedia){
navigator.getUserMedia({audio:true},
function(stream) {
start_microphone(stream);
},
function(e) {
alert('Error capturing audio.');
}
);
} else { alert('getUserMedia not supported in this browser.'); }
// ---
function show_some_data(given_typed_array, num_row_to_display, label) {
var size_buffer = given_typed_array.length;
var index = 0;
console.log("__________ " + label);
if (label === "time") {
for (; index < num_row_to_display && index < size_buffer; index += 1) {
var curr_value_time = (given_typed_array[index] / 128) - 1.0;
console.log(curr_value_time);
}
} else if (label === "frequency") {
for (; index < num_row_to_display && index < size_buffer; index += 1) {
console.log(given_typed_array[index]);
}
} else {
throw new Error("ERROR - must pass time or frequency");
}
}
function process_microphone_buffer(event) {
var i, N, inp, microphone_output_buffer;
// not needed for basic feature set
// microphone_output_buffer = event.inputBuffer.getChannelData(0); // just mono - 1 channel for now
}
function start_microphone(stream){
gain_node = audioContext.createGain();
gain_node.connect( audioContext.destination );
microphone_stream = audioContext.createMediaStreamSource(stream);
microphone_stream.connect(gain_node);
script_processor_node = audioContext.createScriptProcessor(BUFF_SIZE_RENDERER, 1, 1);
script_processor_node.onaudioprocess = process_microphone_buffer;
microphone_stream.connect(script_processor_node);
// --- enable volume control for output speakers
document.getElementById('volume').addEventListener('change', function() {
var curr_volume = this.value;
gain_node.gain.value = curr_volume;
console.log("curr_volume ", curr_volume);
});
// --- setup FFT
script_processor_analysis_node = audioContext.createScriptProcessor(2048, 1, 1);
script_processor_analysis_node.connect(gain_node);
analyser_node = audioContext.createAnalyser();
analyser_node.smoothingTimeConstant = 0;
analyser_node.fftSize = 2048;
microphone_stream.connect(analyser_node);
analyser_node.connect(script_processor_analysis_node);
var buffer_length = analyser_node.frequencyBinCount;
var array_freq_domain = new Uint8Array(buffer_length);
var array_time_domain = new Uint8Array(buffer_length);
console.log("buffer_length " + buffer_length);
script_processor_analysis_node.onaudioprocess = function() {
// get the average for the first channel
analyser_node.getByteFrequencyData(array_freq_domain);
analyser_node.getByteTimeDomainData(array_time_domain);
// draw the spectrogram
if (microphone_stream.playbackState == microphone_stream.PLAYING_STATE) {
show_some_data(array_freq_domain, SIZE_SHOW, "frequency");
show_some_data(array_time_domain, SIZE_SHOW, "time"); // store this to record to aggregate buffer/file
}
};
}
}(); // webaudio_tooling_obj = function()
</script>
</head>
<body>
<p>Volume</p>
<input id="volume" type="range" min="0" max="1" step="0.1" value="0.0"/>
</body>
</html>