web-dev-qa-db-ja.com

音声認識で携帯電話のユーザーを特定することは可能ですか

私の友人は、音声認識を使用するだけですべての匿名コール(プリペイド、スカイプなど)を識別できると主張しています。ただし、これまでに読んだ科学文献はあいまいです。つまり、音声認識を限られた数の個人に適用すると、誰が誰であるかを確実に識別することができます。ただし、数が特定の制限に達すると、これは不可能になります。だから問題は、すべてのネットワーク参加者の音声認識を使用したユーザーの識別は本当に可能ですか、それとも私の友人は偏執的ですか?

4
CuriousIndeed

ただし、数が特定の制限に達すると、これは不可能になります。

どうして?基本的な問題は、信号を与えられて、一致する指紋を特定することです。この問題は並列化可能であるため、並列アーキテクチャ(GPU、さらにはFPGA)を使用することで解決できます。

信号を1つの指紋と確実に比較する方法が得られたら-これは既知の科学文献でも可能です-データベース(または指紋のグループ)の指紋ごとに1つ、このマッチングアルゴリズムの複数のインスタンスを実行し、結果を収集できます。最後に。

2006年に分類されたNSAメモ はSnowdenによって漏らされ、NSAは自分で機能することが知られている話者識別技術の一部であると述べています。言葉、

主に話されている言語とは無関係です。

このような大規模を考える場合、一意性はおそらく問題です。実際の指紋も一意ではありません。

ここでは非常に投機的な考え。音声指紋を他の既知の情報(場所、その番号/デバイスの所有者、会話で話している名前、たとえば「Hi John」など)と組み合わせることができる場合があります。これは、必要に応じて調査で行うことができます。これを自動的に行うことは可能かもしれませんが、これもまた純粋な推測です。

とにかく、ストレージはどうですか?簡単な計算をしてみましょう。

公に知られている自動話者認識システムの例として この論文 を取り上げます。一人当たり25秒のトレーニング記録で、0.57%から2.62%の等誤り率(EER)を主張しています。

8 kbpsでは、25秒は200 KBに相当します。これに7×10を掛けます9 (この地球上の70億の人々)、そしてあなたは1.4ペタバイトを取得します。

巨大に見えるかもしれませんが、不可能ではありません。

NSAユタ州のデータセンター 最大容量は3〜12エクサバイトと想定されています 。Googleは10〜15エクサバイトのデータを保持すると推定されています。ここでは数千ペタバイトです。

これは明らかに見積もりですが、大きさの順序は正しいはずです。

さらに、これらすべてのトレーニング記録を保持する必要はありません。必要な機能を抽出したら、少なくとも理論的にはそれらを削除できます。つまり、多くのスペースを節約できます。また、可能性のある話者識別システムの分類された進歩についても考慮していません。

指紋の数が多いため、これをリアルタイムで実行できるかどうかは明確ではありませんが、地球上のすべての生きている人からサンプルを収集したとしても、非リアルタイムの識別は確かに実行可能に思えます。

結論。確かにわかりませんが、地球上のすべての人のトレーニングサンプルが与えられると、電話での話者の自動識別は難しいようですが非常に高度な組織にとって技術的に実現可能な問題。リアルタイムでできるかどうかは定かではない。指紋の一意性(またはその欠如)は、このような大規模では問題になる可能性があります。

2
A. Darwin