web-dev-qa-db-ja.com

Googleの「No Captcha reCaptcha」はどのように機能しますか?

Googleは、ボットの新しい形式のキャプチャ認証をリリースしました。これは、ユーザーに単一のチェックボックスをクリックするように求めます。必要な場合にのみ、画像ベースの検証を使用します。

そのようなプログラムが人間とボットをどのように区別するかについて誰かが私に説明してもらえますか?

お使いのコンピューターでマウスクリックを実行できるプログラム here があります。プログラムファイルにアクセスできないWebベースのプログラムでは検出できません。チェックボックスにチェックを付けることができる、検出できないWindows実行可能ファイルを書き込むことができるはずです。プログラムの応答時間をランダム化することもできます。

数回の試行(成功)の後、キャプチャは画像検証を要求します。多分それは、Google画像検索(画像)を使用して画像を検索し、「視覚的に類似した」画像のファイル名に基づいて推測を行うAIによって解決できる可能性があります。使用される画像がネットからのものでない場合、それらの数は制限され、それらのデータベースを作成できます。

これらのアプローチが実際に機能するかどうかを誰かが明確にできますか?

77

Googleはアルゴリズムを秘密にしており、その仕組みを推測することしかできないので、これはstackexchangeにとってあまり良い質問ではありませんが、新しいシステムでは、Googleのすべてのサービス(およびGoogleが管理している他のサイト(Google広告を掲載しているウェブサイトなど)。

したがって、チェックは、チェックボックスがオンになっているページだけに限定されない可能性があります。たとえば、あなたが使用しているコンピュータ/ IPアドレスが、Gmailの確認、Google検索での検索、ドライブへのファイルのアップロード、写真の共有、閲覧などの通常の人間が行うことにも過去に使用されたことが検出された場合ウェブなど-その後、おそらくあなたが人間であることを合理的に確信しており、画像の検証をスキップすることができます。一方、コンピューターを以前の人間のような活動に関連付けることができない場合は、疑わしくなり、画像を確認できます。チェックボックスをクリックしたときのマウスの動作は、分析する1つの要素である可能性がありますが、それ以外にも多くのことは確かです。

繰り返しになりますが、それがどのように機能するかはよくわかりません。これは、Googleがほとんど言っていないことに基づいた私の最良の推測です。

新しいreCAPTCHA APIは簡単に聞こえるかもしれませんが、その控えめなチェックボックスの背後には高度な高度化があります。 CAPTCHAは長い間、歪んだテキストをロボットが解決できないことに依存してきました。しかし、最近の調査によると、今日の人工知能テクノロジーは、最も難しい変形テキストも99.8%の精度で解決できることがわかりました。したがって、歪んだテキスト自体は、もはや信頼できるテストではありません。

これに対抗するために、昨年、reCAPTCHAのAdvanced Risk Analysisバックエンドを開発しました。これは、ユーザーのCAPTCHAとのエンゲージメント全体(前、最中、後)を積極的に考慮して、そのユーザーが人間であるかどうかを判断します。これにより、歪んだテキストを入力する手間を省き、ユーザーにより良いエクスペリエンスを提供できます。今年の初めにバレンタインデーの投稿でこれについて話しました。

私にとって「使用前、使用中、使用後」についてのポイントは、彼らが以前の閲覧行動を分析しているという強いヒントですが、私の解釈は間違っている可能性があります。

WIREDからの引用は次のとおりです。

Googleの「reCaptcha」は、従来の歪んだWordテストに依存する代わりに、すべてのユーザーが無意識のうちに提供する手がかりを調べます。IPアドレスとCookieは、ユーザーがGoogleがWebの他の場所から覚えている同じ友好的な人間であることの証拠を提供します。またシェット氏は、チェックボックスにカーソルを合わせて近づけるときにユーザーのマウスが行う小さな動きでも、自動ボットを明らかにするのに役立つと述べています。

これについても議論しているstackoverflowの別のスレッドがあります。 https://stackoverflow.com/questions/27286232/how-does-new-google-recaptcha-work

画像検証に関しては、逆画像検索でそれらの画像を見つけたり、それらのデータベースをコンパイルしたりすることはできません。通常は、Googleのストリートビュー撮影車が撮影したランダムな道路標識や家の番号、またはGoogleブックスプロジェクトでスキャンされた本の単語です。この背後には良い目的があります。Googleは実際にreCaptchaに入力したものを利用して、独自のデータベースを改善し、OCRアルゴリズムをトレーニングします。 reCaptchaは同じ画像を多数のユーザーに提供し、ユーザー全員がそれが言うことに同意する場合、その画像はGoogleのAIのトレーニングデータになります。

ウィキペディアから:

ReCAPTCHAサービスは、光学式文字認識(OCR)ソフトウェアが読み取ることができなかった単語の画像を購読Webサイトに提供します。購読しているWebサイト(その目的は通常、書籍のデジタル化プロジェクトとは無関係です)は、通常の検証手順の一部として、これらの画像を人間がキャプチャ文字として解読できるように表示します。次に、結果をreCAPTCHAサービスに返します。このサービスは、結果をデジタル化プロジェクトに送信します。

reCAPTCHAは、ニューヨークタイムズのアーカイブとGoogleブックスの書籍のデジタル化に取り組んできました。[3] 2012年現在、30年間のニューヨークタイムズはデジタル化されており、プロジェクトは2013年末までに残りの年を完了する予定です。現在完成したニューヨークタイムズのアーカイブは、ニューヨークタイムズの記事アーカイブから検索できます。ここでは、1851年から現在までの合計1300万件を超える記事がアーカイブされています。

67
tlng05

私もこのことに驚かされます。 Chrome開いているシークレットモードで、新しいGoogle CAPTCHAが含まれているサイトを参照して、チェックボックスをオンにします。そうではありませんでした。代わりに、一連の画像で、1つの画像に関連する画像を選択するように求められました。

これは、Googleが人間であるかどうかを判断するために常に行動を追跡していることを示しています。

Incognito mode

20
fdiengdoh

をクリックすると、私はロボットではありません

  • あなたのIPアドレス
  • あなたの国
  • タイムスタンプ

チェックボックスに入る直前のカーソルの移動方法など、ブラウザからの情報。クリックする前にページをスクロールする方法。さまざまなブラウザーイベントと、Googleが秘密にしておく他の多くの変数との間の時間間隔。

これらすべての基準は、Googleの機械学習リスク分析によって処理されます。ほとんどの場合、情報から人間とボットの違いがわかりますが、リスク分析エンジンがまだ不明な場合は、ユーザーのごく一部が追加の課題を完了することがよくあります。 。

これが画像認識CAPTCHAの出番です。この方法で人間であることを証明した場合、Googleのエンジンが覚えている可能性があり、次回はそのチェックボックスをクリックした後にこれらを正しく通過することができます。

9
defalt

私が見た限りでは、ロジックは次のようになります:

  • ユーザーログに記録されていない(ブラウザの)Googleアカウントの場合、表示されるキャプチャが表示されます。
  • ユーザーログイン中の場合、以前の(おそらくGoogle全体で)アクティビティの履歴に応じて(そのページ上か、そこに移動する前のいずれかで)、2つのシナリオが考えられます。
    1. キャプチャは取得されません
    2. キャプチャが簡単になります(つまり、4つの迷路ではなく1つの迷路)

私がよく理解できないのは、アルゴリズムがあなたが人間であることをすでに検出している場合のcheckbox captchasの使用法です。

2
T.Todua

それはいくつかのことを行います。 IPアドレスとCookieをチェックします。クリックする前にマウスがどのように移動するかを確認します。自動クリックツールを使用すると、グーグルはあなたに絵のようなものを与えます。

0
skyler