錯覚グラフィックの人間の知覚に「欠陥」を使用すると、システムは人間と機械を区別できます(これらの画像を [〜#〜] captcha [〜#〜] のように使用して)?
いくつかの例は、人間が "ドット"(実際にはそこにない)を数えたり、画像のどの部分に一致する色があるかを選択したりする場合です(錯覚により色が実際には一致しない場合)。
上記のすべての車は同じサイズですが、人間は1つの車を大きく見ています。
上記のオレンジ色の円は同じサイズですが、人間では1つ大きく見えます。
上の正方形は同じ色ですが、人間は下の正方形を明るく見ています。矢印が指している線を指で覆うと、コンピュータのように四角が表示されます。
コンピュータがこれらの写真から最大の車や円、または軽い四角を選ぶように求められた場合、人間よりも難しいでしょう。
機械では再現できないこれらの「欠陥」には固有のものがないため、これはおそらく長期間は機能しません。
解決する必要がある最初の問題は、ほとんどの人間にとって簡単に解決できるが、現在の画像認識では解決が難しい画像を生成するアルゴリズムを作成することです。重要なサイトを保護するためにこのシステムを導入すると、それを破壊するのに十分魅力的になります。そして、それは時間の問題にすぎません。つまり、キャプチャを壊すための努力は、それを壊すことによってどれだけ得ることができるかに関連しています。
目の錯覚は、データ処理を最適化したり、役に立たない情報を捨てたりするために人間の視覚システムが使用するショートカットによって引き起こされます。これらはよく知られた現象であり、通常の画像認識ほど解決が困難なものはありません。実際、ある特定の遊び場の画像に含まれる子供の数を数えるなど、複雑なシーンを理解することは、2本の線のどちらが「長く見える」かを認識するよりもはるかに難しいと思います。