奇妙なBingbotがWebサイトのアクセスログにヒットする

Question

最近アクセスログに私のサイトへの多くのヒットを見ています、そして、私はそれらをどうするべきかわかりません。彼らが到達しようとしているページは存在せず、彼らはBingbotから来ていると言っていますが、それらはbing IPアドレスだとは思いません。 htaccessを介して、またはBingに報告することで、これらをどのように処理すべきかについてのアイデアはありますか？

66.249.69.1 - - [11/Aug/2016:07:41:23 -0400] "GET /index.php/write-academic-papers-for-money/js/jquery-1.8.2.min.js HTTP/1.1" 200 10014 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com /bot.html)" 70.208.74.141 - - [11/Aug/2016:07:41:28 -0400] "GET /images/ways.jpg HTTP/1.1" 200 188202 "http://tt.tennis- warehouse.com/index.php?threads/Nice-mean-pros-on-tour.570480/" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_2 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12D508 Safari/600.1.4" 40.77.167.6 - - [11/Aug/2016:07:41:30 -0400] "GET /index.php/buy-research-paper-no-plagiarism/gifts-gear.php HTTP/1.1" 200 9866 "-" "Mozilla/5.0 (compatible; bingbot/2.0;)"

MrWhite · Accepted Answer

表示される3つのログレコードはすべて正当なトラフィックのように見え（GoogleとBingの両方のIPアドレスが有効であるように見えます）、closetnocが既に指摘しているように、最後の1つだけがBingbotを参照します。

彼らが到達しようとしているページは存在しません

ただし、サーバーは200 OKステータスを返しているため、これらのURLが検索エンジンによってインデックス付けされる可能性があります。これらのURLが404 Not Foundを返した場合、そのような問題はありません。

あなたのサイトは、あなたのサイトに関係のないキーワードのSERPにスパムリンクを作成するXSSのような攻撃の標的になっているようです。

/index.php/XXXXXXリクエストを防ぐためにできることはありますか

はい。有効なファイル名の後のURLの追加のXXXXXXは、末尾パス名情報（PATH_INFO）です。 Apacheのデフォルトの動作では、通常、この追加のパス情報が許可されます（ただし、ハンドラーに依存します）。

ただし、これはサーバー構成または.htaccessファイルのAcceptPathInfoディレクティブで無効にできます。例えば：

AcceptPathInfo Off

これにより、Apacheはそのようなリクエストで404 NOT FOUNDエラーを返します。

Apacheドキュメント...
https://httpd.Apache.org/docs/2.4/mod/core.html#acceptpathinfo

WebサイトのURL構造に応じて、index.phpへの直接リクエストをブロックできます。ルート.htaccessファイルでmod_rewriteを使用する次のようなもの：

RewriteEngine On RewriteCond %{THE_REQUEST} ^GET\ /index\.php [NC] RewriteRule ^index\.php - [F]

これは、URLルーティングディレクティブ（例：WordPress）の前に移動する必要があります。

THE_REQUESTには初期リクエストヘッダーのみが含まれているため、フロントコントローラーを使用している場合（たとえば）に内部的にindex.phpに書き換えてもかまいません。