web-dev-qa-db-ja.com

Googleはウェブサイトに存在しないページをクロールします

Googleウェブマスターツールがクロールエラーを報告しています。

403 vy81TYYP/lraynb-20151123-dkd04-2290.htmlなどの「.html」のアクセスが拒否されました。私の開発したウェブサイトには存在したことがありません。これは1回だけでなく、100以上のリンクで発生します。

404 Not Foundこのウェブサイトには存在しないリンクの場合。同様に、5000個のリンクがレポートに表示されます。

問題が発生した場所を取得するには複雑すぎます。同様の1つ question が見つかりましたが、まだこれを修正するものが見つかりませんでした。

ウェブマスターの問題はありますか?または他の? wordpress Webサイトをスキャンして、データベースおよび各ファイルごとにマルウェアを探しました。修正が見つかりませんでした。

2
CodeBriefly

あなたのウェブサイトにそのようなものが存在しない場合、あなたはそれを心配する必要はありません。

ネガティブSEOを回避するには- サイトにリンクしているユーザーを検出 、および disavow これらのバックリンク。

内部的な理由でも発生するため、WebサイトのサイトマップとWebサイトの内部リンク構造を確認してください。

2
Goyllo

これにはいくつかの理由があります。

  1. このリンクはWebサイトにありましたが、Webページとともに削除されました。
  2. この正確なURLを指すバックリンクがあります。 MajesticSEO、OneSiteExplorer、またはAhrefsでWebサイトを確認してください。

As Goyllo-このリンクを否認します。ただし、それらを否認しても、存在しないページはインデックスから削除されません(少なくとも、すぐには発生しません)。これらのページをインデックスから削除するには、ウェブマスターツールでURLを削除します(Googleインデックス-> URLを削除)。そこで、いずれかのページを1つずつ削除するか、ディレクトリ全体を削除できます。ほぼ瞬時に動作します。いつでも変更を元に戻すことができますので、間違ったページを削除しても心配する必要はありません。幸運を!

2
Andrey Shulman

Googlebotは、ページで見つけることができるもの(id、classなど)から新しいURLを作成しようとします。

それが404の原因です。検索コンソールでの404の存在は問題ではありません。サーバーは完全に正しく反応します。存在しないURLへのGETを受信すると、404で応答します。

ただし、一部のURLの場合、サーバーはそれらに到達しようとすると403で応答します(404でも応答する必要があります)。正しく応答するようにサーバーを調整する必要がありますが、Googlebotの場合は、403を起動するURLがどのように見えるかが明確にわからないため、存在しません。それから私は403エラーにも404答えを与える回避策を講じます。

そうするために:

  1. カスタム404ファイル(404.php)を作成し、このコード行の最初の行のように、そのすべてのコードの前に配置します。

    <?php http_response_code(404); ?>
    

この行では、どんな場合でも404応答コードを送信する必要があります。

  1. 次に、htaccessに2行作成します。

    ErrorDocument 403 /error/404.php
    ErrorDocument 404 /error/404.php
    

    エラー403と404の両方の場合、同じエラーファイル404.phpで応答することに注意してください。通常、403エラーの場合、404.phpの送信に関係なく、ヘッダーステータスコードは403のままになるため、役に立ちません。しかし、ステップ1では、404ステータスコードの送信を404.phpで定義したため、404ステータスコードいずれにしても送信されます。

2
Evgeniy

これらのページが他のページからリンクされているかどうかを確認してください。それらのリンクを削除し、エラーを修正済みとしてマークします。そのページにバックリンクがないことを確認してください。そのページにバックリンクがある場合は、404を表示し、それらすべてのドメインを否認ファイルに送信してください。

2
danielwill786