匿名を希望する人がいるすべてのテレビ番組では、彼らは私にピッチ(周波数)の単純な増減のように聞こえるように声を変えます。私が思っているのは:
私が話しているのは音声品質だけであり、もちろん人物をすぐに匿名化できる他の機能(アクセント、方言、個人的な語彙やスラングなど)についてではないことに注意してください。
単純なピッチ変更では、音声をマスキングするには不十分です。これは、攻撃者がオーディオを元に戻し、元のオーディオを回復できるためです。
ほとんどのボイスモジュレーターは、単純なピッチ変更ではなく、ボコーダーを使用します。 「ボコーダー」という用語は残念ながら最近はかなり過負荷になっているため、明確にするために、フェーズボコーダー、ピッチリマッパー、音声コーデックではなく、音楽で最も一般的に使用されるタイプを意味します。
これが機能する方法は次のとおりです。
アナログアプローチのかなり大まかな図は次のとおりです。
オーディオ入力は、それぞれが狭い周波数範囲のみを通過するバンドパスフィルターを使用して、いくつかの周波数帯域に分割されます。 「プロセス」ブロックは結果を取得し、何らかの振幅検出を実行します。これは、電圧制御増幅器(VCA)への制御信号になります。上部のパスは、通常入力でエンベロープ検出を実行し、それを使用して電圧制御発振器(VCO)を駆動することにより、キャリア波形を生成します。次に、キャリアは右側のバンドパスフィルターによって個々の周波数帯域にフィルター処理され、VCAを介して駆動され、出力信号に結合されます。全体的なアプローチは、上記のDSPアプローチと非常によく似ています。
希望の効果を得るために、プレフィルタリングとポストフィルタリング、ノイズとディストーション、LFOなどの追加のエフェクトも適用できます。
これを反転するのが難しい理由は、元のオーディオが実際に出力に渡されないためです。代わりに、情報は元のオーディオから抽出され、新しい信号を生成するために使用されます。このプロセスは本質的に損失が大きいため、元に戻すことがかなり禁止されています。
tl; dr–通常は元に戻すことはできませんが、実際には元に戻すことができます。
人の名を取り、その中の文字数を示す削減方法を考えてみましょう。たとえば、"Alice"
は5
に変換されます。
これは損失の多いプロセスであるため、通常は元に戻すことはできません。つまり、5
は、たとえば"Alice"
にもマップされる可能性があるため、必ずしも"David"
にマップされるとは言えません。
つまり、変換が5
であることを知っていても、5
に変換されない名前を除外できるという点で、多くの情報が含まれています。たとえば、明らかに"Christina"
ではありません。
それでは、あなたが事件を解決しようとしている警察の刑事だとしましょう。容疑者をアリスとボブに絞り込み、犯人の匿名名が5
だったことを知っています。確かに、一般に5
を逆にすることはできませんが、この理論的な点は、この場合アリスを本当に助けますか?
古き良き時代には、コンピューターなどが登場する前は、声を無力に変換するだけで十分だったかもしれません。次に、第三者が元の話者の声を取り戻したいと思ったとしても、それはできませんでした。
今日、私たちは次の方法でコンピュータを使用できます。
タグ付けされた以前の確率で可能性のアンサンブルを確立します。
音声匿名化ソフトウェアをシンボリックに実行して、音声の確率的アンサンブルを生成します。
その集合の内積を、たとえば一連の容疑者と一緒にして、情報に基づいた確率のセットを生成します。
このメソッドはanyに一般的です完全に変換されません損失。ただし、結果として得られる情報の有用性は、匿名化方法の損失の程度によって異なります。軽度の損失のある変換は、一般的には可逆的ではありませんが、実際には大部分は可逆的である可能性がありますが、非常に損失の多い変換は、実用的な不可逆的な有用な情報をほとんどもたらさない場合があります。
いいえ、それは確かに安全ではありません。
私がそれをするなら、私はテキストにスピーチを使って、それからスティーブン・ホーキングのような一般的な声を使って口述します。これにより、実際の音声情報が完全に排除されます。
残っている唯一のことは、語彙/文を形式化/正規化することにより、方言のスタイルを匿名化することです。
正直なところ、その後者の段階は非常に困難です。思考を正規化することは非常に複雑です。あなたはそれなしで個人を特定できる情報を明かすでしょう。
InfoSecと同様に、InfoSecは脅威と敵のリソースに依存します。
あなたが兄で実用的な冗談を演じようとしているなら、偽のアクセントで十分です。あなたがあなたの妻をだまそうとしているなら、それはより難しいです。
十分な技術リソースを使って敵対者と複雑な会話を実行しようとしている場合、状況によっては、あなたの声を隠していることに気づいていない限り、重要な支援なしではほとんど不可能になります。
問題はピッチではなく、あなたが無意識に行うことのあらゆる種類になるでしょう。あなたはあなたが言うこと「キャッチフレーズ」を持っています。あなたはあなたのスピーチ、Wordの使用法、そしてあなたが一貫して誤用しているより重要な特定の言葉にリズムを持っています。ほとんどの人とは発音が異なるいくつかの単語や、地域のアクセントなどがあります。それはほとんど指紋のようなものです。
あなたはあなたがそれを捕らえる場所でこれのいくつかからあなた自身を訓練することができます、そしてそれからそれはあなたの指紋になります。
あなたは(あなたが良い俳優であれば)「役割を採用」し、これらの多くを意図的に「役割のためだけ」に変更し、それが終わったらそれを落とすことができます。それはmany分析の種類をばかにしますが、それは多くの作業であり、毎回onでなければなりません。