非常に大きなオーディオファイルを特定のポイントで分割したい。ある時点でラジオアナウンサーがやって来て、「deux radio」のようなことを言いますが、それは常にまったく同じように聞こえます(録音されたクリップです)。 MP3全体で繰り返されるオーディオのビットをどのように見つけることができますか?その時点で分割できればいいのですが、時間を吐き出しても別のプログラムで分割できます。
理論的には、これを行うには独自のアプリを作成する必要があります。これを行う必要があります。
音声認識エンジンを介してWAVファイルを実行します Sphinx音声認識 は無料のオープンソースエンジンです。
音声認識エンジンでテキストをメモリにリアルタイムで吐き出し、サンプルの長さの場所を追跡します。文字列「deuxradio」が見つかるたびに、サンプルの場所をsplitlog.txt
ファイルに吐き出します。これはリアルタイムであるため、サンプルの場所の概算を取得します。
独自のwavスプリッターアプリを作成します。splitlog.txt
からすべてのサンプルロケーションポイントを収集し、それに応じてWAVを分割します。
audiogrep というプログラムがあります。このプログラムは、音声からテキストへの変換を使用してテキストを転記し、テキスト検索に基づいてオーディオカットを作成します。
オーディオクリップの代わりにタイムスタンプを出力するオプションは見たことがありません。おそらく、ソースを少し変更する必要があります(または作成者に連絡して尋ねてください)。また、フランス語(またはアナウンサーが使用する言語)をどれだけうまく処理できるかもわかりません。
あなたは試すことができます:
[〜#〜] tapestrea [〜#〜] :次のように記述されている実験ソフトウェア:
TAPESTREA(またはタップ)は、複雑なサウンドをインタラクティブに分析、変換、および合成するための統合フレームワークです。 1つ以上の録音が与えられると、次のことを行うための明確な手段が提供されます。
- サウンドの関心のあるポイントを特定し、それらを再利用可能なテンプレートに抽出します
- 背景や他のイベントとは無関係にサウンドコンポーネントを変換する
- 知覚的に説得力のある方法で背景テクスチャを継続的に再合成します
- 小説を使用して、イベントテンプレートを背景の上に制御可能に配置します-グラフィカルユーザーインターフェイスおよび/またはChucKオーディオプログラミング言語で記述されたスクリプト
Voice Converter :シェアウェア($ 29.95、時間制限のない試用版)。これは次のようなツールとして説明されています。
ピッチエディター、フォルマントシフト、ビブラート、ラスピネス、ブレスネス、ピッチレンジスケーリング、ピッチスムージング、タイムストレッチ…