Googleは私のウェブサイトから何千ものPDFをキャッシュしましたが、これらは公開されるべきではありません。ヘッダーを更新しましたが、既存のクイックビューキャッシュを削除する必要があります。
Googleウェブマスターツールを使用すると、それらを1つずつ削除できますが、削除するファイルの量を考えると、これは明らかに実用的ではありません。
GoogleキャッシュからPDFを一括削除する方法を知っている人はいますか? 「site:mysite.com * .pdf」に一致するすべてを削除する方法が理想的です
単一のURLの削除 を要求する方法をすでに理解しているようです。これは明らかにここでは問題外です。そのプロセスの2番目のステップでは、ファイルURLが特定の方法で予測可能な場合、 ディレクトリ全体の削除 を要求することもできます。 (PDFが数千ある場合は、少なくともある程度整理されていることを望みます。)そうでない場合は、ほとんどオプションがありません。 、残念ながら。
最近、私のサイトに数千の偽ページを追加するハックがありました。
修正されたサイトマップをGoogle Search Console(以前はWebmaster Toolsと呼ばれていました)に送信し、すべてのリンクを410に変更しましたが、Googleはまだそれらのほとんどにインデックスを付けていました。
WebMaster Tools-一括URL削除Chrome Extension を使用して、削除するURLを自動的に送信しました。基本的には、URLのリストを取得し、それらを一度に1つずつ送信するスクリプトです。それらをすべて送信するには数時間かかりますが、少なくとも自分で行う必要はありません。 使用方法に関する記事はこちら 。
Search Consoleから直接データをダウンロードすることで、Googleがインデックスを作成しているURLのリストを取得できます。 [ステータス]> [インデックスカバレッジ]に移動し、有効な結果を選択して下にスクロールします。 Googleがサイトマップにない大量のURLをインデックスに登録していることがわかります。最初の1000件の結果をダウンロードできます。最初の1000個だけでなく、それらすべてを取得する迂回方法があるようですが、これにはExcelからのAPI呼び出しが含まれます。彼らがインデックスからゆっくりと落ちていくので、私はそれぞれの1000の間で数日待っていました。
もう1つの方法は、WPプラグインでサイトマップを作成し、PDFまたはターゲットとするものをすべて除外することです。おそらくここで手動でコピー/貼り付け/削除を行う必要があります。念のため、約2,700個のスパムURLのリストをゆっくりとスクロールし、正当なURLを削除しました。約20分しかかかりませんでした。
スパムのようなものを永久に消そうとせず、代わりにプレミアムリソースを難読化しようとする場合は、ロボットファイルなど、他の方法を使用してそれらのリソースのインデックス作成を防止する必要があります。しかし、Googleが耳を傾けなかった、またはあなたがボールを落としたことが判明した場合、少なくとも今は問題を修正し、ほんの数日でインデックスからそれらを削除することができます。
私の特定の状況では、なぜGoogleにタイムマシンボタン、元に戻す、リセットがないのか疑問に思っています。そのアイデアは、数日前にサイトがハッキングされたことをGoogleに伝えることができるが、それを修復したため、最後のx日間のクロールとインデックス登録を取り消すことです。しかし、それは簡単すぎるでしょう。
ファイルが「公開されるべきではない」場合は、公開インターネット上にある必要があります。 Googleのリストからファイルを削除できます(robots.txtなどの方法を使用)が、ファイルがまだ存在する場合は、誰でもダウンロードできます。
何らかの認証の背後にそれらを保持する必要があります。たとえば、ファイルをパブリックWebディレクトリから移動し、ユーザーが最初に有効かどうかを確認するスクリプトからファイルを提供します。