iOS5.0およびXCode4.2用のSDKを使用してiOSアプリケーションを開発しています。
音を認識するアプリケーションを開発したい。 Sound Houndというアプリケーションがあり、音楽を認識してアーティストとタイトルを通知します。
どうすれば似たようなことができますか?サウンドを既存のサウンドデータベースと比較したいと思います。どうやってやるの?
たぶん私はフーリエ変換を使うことができます。音の処理方法がわかりません。あるいは、音声認識に似ているかもしれませんね。
オーディオ検索アルゴリズムがどのように機能するかを説明する論文に出くわしました。これが リンク です。これは、SoundHoundのライバルアプリケーションであるShazamの開発者の1人によって書かれました。
良い リンク ウィキペディアのページには次のものが含まれます: https://surdu.me/2011/01/20/how-does-shazam-work.html そして論文- http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf 前述のSub_stantial
Shazamアプリケーションは、リンクトオープンデータでのアプリケーションの最良の例の1つであり、エンドユーザーから短いサンプル音楽を取得し、データセットから曲を識別し、アルバムを購入するためのリンクを作成します。
ユーザーが曲に10秒間タグを付けると、アプリケーションは、簡略化されたスペクトログラムのアンカーのいくつかとそれらの間のターゲット領域に基づいて音声指紋を作成します。
ターゲットエリアの各ポイントについて、アンカーポイントが配置されている頻度、ターゲットゾーン内のポイントが配置されている頻度、およびポイント間の時間差の組み合わせであるハッシュ値を作成します。ターゲットゾーンとアンカーポイントが曲の中にあるとき。
オーディオのフィンガープリントが作成されると、Shazamはデータベース内の一致の検索を開始します。一致するものがある場合、情報はユーザーに返されます。それ以外の場合は、「曲が不明」のダイアログを返します。