web-dev-qa-db-ja.com

パスワードで保護されたページでユーザーをフォローしているBingボット?

私のクラシックASP Webサイトには、現在のユーザーをフォローしているように見える、検証済みのBingボットからのトラフィックが見られます。

たとえば、このユーザーが2〜24時間後にショッピングカートにアイテムを追加すると、Bingボットがやって来て、同じアイテムをカートに追加しようとします。このユーザーが私のサイトで行っていることはすべて、24時間以内にいくつかのBingボットによってミラーリングされていることを確認しました。

誰かがこのようなものを見たかどうか、そしてそれの既知の原因があるかどうか疑問に思っていますか?私たちのサイトはパスワードで保護されており、私は(15年以内に)スパイダーボットを見たことがありません以前にこれらの保護されたURLのいずれかをインデックス付けまたはヒットしてみてください。したがって、ここで何が起こっているのか非常に興味があります。

ありがとう!

編集:明確にするために:これらのBingボットは、すべてパスワードで保護されているため、ユーザーがアクセスしたページには実際には到達しません。彼らはURLにアクセスしようとし、認証されていないため、ログインページにリダイレクトされます。

6
Doctor McDoctor

たぶん、そのユーザーにはBingのツールバーがインストールされています。このツールバーは、訪問したURLをBingに送信し、BingbotはこれらのURLをクロール(試行)します。

searchengineland.comの記事Bingツールバーが誤ってプライベートページと広告を送信する方法

マイクロソフトは、Bingツールバーがインストールされた状態でインターネットサーフィンをしているユーザーを通じて発見したURLを発見し、インデックスに登録することを確認しています。

[…]

マイクロソフトのシニアプロダクトマネージャーであるデュアンフォレスターは次のように語っています。

はい、他のいくつかのツールバーと同様に、Bingツールバー(ユーザーが許可した場合)は、ユーザーがアクセスしたオープン(httpsではない)Webサイトを記録して、検索結果を改善するためにインターネットの知識を追加しますユーザー。これは(サイトが許可する場合)、実際に私たちが発見したクロールリンクにつながる可能性があります。 […]

(記事は2012年のものです。それ以降、状況が変わったかどうかはわかりません。)

3
unor

私は実際に私のサイトのある時点でこれを経験しました。

問題を解決するためにできることは、検索エンジンロボットがPOSTベースのリンクとしてアクセスすることになっていないリンクを作成することです。

発明されたほぼすべてのブラウザーに対して、優れた互換性を備えた完全な方法を以下に示します。

メソッド投稿を含むフォームを作成します。例えば:

  <form action="http://example.com/robots-cant-access-this.asp" method="POST">
  <input type="hidden" name="parametertoscript" value="valueforscriptparameter">
  <input type="hidden" name="secondparametertoscript" value="valueforsecondscriptparameter">
  <input type="hidden" name="nthparametertoscript" value="valuefornthscriptparameter">
  <input type="submit" value="button label to show to public">
  </form>

次に、aspコードで、リクエストメソッドがPOSTであることを確認する必要があります。そうでない場合は、カートプロセスを続行しないでください。実際、ロボットがアクセスしたくないURLにアクセスしようとしないように、410を返します。

私はASPに十分に堪能ではありませんが、ここにあなたを始めるための擬似コードがあります:

Get value of request method
If Request method equals post then
     process requested page to client
else
     issue HTTP error 410 GONE
     print error
end if
exit
1
Mike

これらのURLのいくつかをメールで送信しますか?その場合、nosniffヘッダーは、メールクライアントがページをスニッフィングするのを防ぐのに役立ちます。

HotmailはBing-botを使用し、GmailはGoogleクローラーを使用します。

Htccessのnosniffスニペットを次に示します。

# Add headers to all responses.
<IfModule mod_headers.c>
  # Disable content sniffing, since it's an attack vector.
  Header always set X-Content-Type-Options nosniff
</IfModule>
1
Neograph734