web-dev-qa-db-ja.com

どういうわけか、Googleは適切に301'd URLを200とみなし、古いページの新しいコンテンツをまだインデックス付けしていますか?

。htaccessを使用して、すべての古いURLを新しいURLに適切にリダイレクトしました。問題はグーグルです。どういうわけか、古いページにコンテンツを見つけて(そうすべきではありません)、新しいURLではなくキャッシュに保存します。

例:

  • 古いページ:http://www.natures-energies.com/iching.htm
  • 新しいページ:http://www.natures-energies.com/index.php?option=com_content&view=article&id=760

古いURLをブラウザーに入力すると、リダイレクトされます。ウェブマスターツールで古いURLをGooglebotとして取得すると、ヘッダーに301/permanently redirectedと表示されます。他のボットとしてクロールしようとしても、301リダイレクトされたままです。 Googleで古いリンクをクリックしても、新しいURLにリダイレクトされます。

キャッシュにのみ古いURLが表示され、さらに新しいURLが表示されます!

Googleが新しいコンテンツを取得し、新しいURLではなく古いURLを挿入する方法に困惑しています!

もう1つの興味深い点は、新しいページのキャッシュを試行すると、古いURLを持つ新しいコンテンツのキャッシュが表示されることです。

任意の助けをいただければ幸いです。私は知恵の終わりにいます。私はほとんどすべてを試したと思います。私が見逃しているものはありますか?

この検索を使用して、古いURLを見つけることができます。たぶん、私が見逃したパターンがいくつかあるでしょう。 site:www.natures-energies.com inurl:htm -inurl:https|index

2
user2178914

これは、ほとんどの場合、インデックスにデータを保存する方法に由来しています。 Googleは、ビッグテーブルと呼ばれるものの上に構築されたデータベースを利用しています。 Cassandra データベースは、さらに詳しく知りたい場合、そのデータベースシステムのオープンソースの複製です。

インデックスの主なキーはWebサイトのURI(並べ替え順序を簡素化するために逆に記述されている)であることは明らかです。 Googleは301literallyを取りません。実際、301を作成すると、数回気が変わる場合があります(つまり、実際に302を意味するか、ページの名前を変更してURIを再度変更します)。インデックスキーを更新する1つの理由( URI)は、コンテンツを変更するよりも問題が多いため、ページのコンテンツよりも遅い速度で。そのURIはキーであり、データベースに何十億回も出現する必要があり、変更は大きな影響を及ぼします。

念のため、あなたのDrupalサイトをチェックしましたが、正規のURIが定義されていません。そのようなことも効果があると思います。しかし、後で更新されると思います。私はそれがどれくらいかかるかわかりません。なぜURLエイリアスを削除することにしたのですか?

1
Alexis Wilke

問題の一部は、新しいURLが古いURLよりもはるかに複雑であることです。新しいURLは、3つのURLパラメーターを含む動的ページで提供されます。古いURLは単なる静的なページのようです。

なぜ3つのURLパラメーターがあるのですか?この新しいバージョンのURLは正常に機能しているようです: http://www.natures-energies.com/index.php?id=76

Googleは、URLが少し簡略化されていれば、301リダイレクトをもっと喜んで信じるでしょう。

1