Yandexを介してすべてのユーザーから完全に非表示になっているはずのページに何度かアクセスしました。
問題は、URLの変数を利用しようとして1時間以上費やしているにもかかわらず、Yandexで正当な検索ページを取得できないことです。問題のURLは次のとおりです。
http://yandex.ru/clck/jsredir?from=yandex.ru%3Bsearch%3Bweb%3B%3B&text=&etext=1271.RJS9ZfLhVdj6nXam87qy4e0e-DG9BQd_KlyA1gFVBu1uuZOuUSRTgOEasX71Cupm.fe839c38b17c539463c0b2f7d01d86940f4b3320&uuid=&state=_BLhILn4SxNIvvL0W45KSic66uCIg23qh8iRG98qeIXmeppkgUc0YL_nDC5hqtEQ6WayFoZKRZE&data=UlNrNmk5WktYejY4cHFySjRXSWhXUFJiWDhna1NqZnBmd1YzNG43VS13RUpmdUZXdnBLOHdkMFlqUzVDamF1OVBVb2xkMmtvMUxXWUxJM1hSVW5hS2x5R1R6LVpCcGVXZFZZNkprR0JOSUVPc3d0ZnBVOXpDV295ckZDdFpqS3l4WkZSOFF3c0RmVTN2ZkhIYWIwT0JzNVQyWko5ME9vMw&b64e=2&sign=08505d8afebc7cb1b4568d3e92c11ecb&keyno=0&cst=AiuY0DBWFJ7IXge4WdYJQXbYQp9t5VF6sf_IfF4r6pdt0ojCe4cFQNegojWnJn8UToJJyLyR96RrC_bl9mqJxfCjbo3nl3EPqUjNd2ADc0Zxar8tKC1hQd4R3WTMI1AD3dVkg_IhwheNgkWXjuLnig&ref=orjY4mGPRjk5boDnW0uvlrrd71vZw9kp5uQozpMtKCXdCnh-_wii4V8gT36dWFhYdLgT8HVc5IPL1yluhUPYHlzmn9nr8Aaa3y8eC13fJRd5RgTTAPeGmg&l10n=ru&cts=1481853806438&mc=4.32492874929
私はredir URLの後にコードを取得し、Yandex検索URLにvarおよびvalue etextを追加しようとしましたが、今のところ何も機能していません。
ブラウザとYandex検索UAの両方を使用して、サイト全体をwget
で既にダウンロードしました(私のサイトでは、ログインと人間固有のコンテンツを隠すためにボットを区別しています)。ダウンロードしたすべてのコンテンツを検索しても、問題のURLのインスタンスが見つかりませんでした。サイトマップには、問題のURLに関する言及はありません。
検索用語を確認しようとしても、最初にリンクのソースを特定することはできません。検索エンジンは、既にクロールされている他のページとそれらのページ上のリンクを使用して、クロールするページを識別します。言い換えると、保護されたページに移動するためにクリックするリンクがページにある場合、クローラーはそれを認識します。これは、JavaScriptを使用してリンクがページに追加された場合にも機能します。ほとんどの正当なクローラーはrobots.txtの仕様を尊重して、クローラーにアクセスさせたくないページを除外しますが、robots.txtの除外を尊重しないクローラーが悪い場合は、ログインフォームの背後にあるこれらのリンクへのアクセスを制限します。最速かつ最も簡単な方法は、.htaccessおよび.htpasswdを使用して管理ページの認証を要求し、それらを制限付きアクセスディレクトリに配置することです。