web-dev-qa-db-ja.com

HTTP 418は、「本当の」エラーではないため、Googleや他の企業によってどのように扱われていますか?

Googleや他の検索エンジンがHTTPステータスコード418 I'm a teapotを使用してWebサイトをどのように処理するかを知っているのか疑問に思っていました。

このウィキペディアの記事 によると、クライアントエラーコード(4xx)として使用できます。イースターエッグのウェブサイトにこのエラーコードを使用したいのですが、それでも検索エンジンで見つけられるはずです。

これによれば 4年前のブログ投稿 、Googleはステータス418を無視します。このトピックに関する最新情報はありますか?他の検索エンジンがステータス418にどのように反応するか(主に4xxコードであるため)。

8
ssc-hrep3

「418 I'a a Teapot」ステータスを返すページでGoogle Search Consoleの「Fetch as Google」ツールを使用すると、単に「エラー」が報告され、このページのインデックス作成はリクエストできません。

以下のスクリーンショットでは、丸で囲まれた「エラー」は、418ステータスを返すページをリクエストした結果です。この段階では、これ以上の情報は入手できません。

Screenshot of Fetch as Google tool showing errors for 418 pages

私のアクセスログによると、GooglebotとSearch Consoleの両方がこのページにアクセスしましたが、まだインデックスに表示されていません。

明確にするために、これは新しいページであり、以前はインデックスが作成されていません。インデックス化されたページからリンクされており、インデックス化のために(「リンクされたページ」とともに)再送信されています-上記のスクリーンショットをご覧ください。また、このページを含むXMLサイトマップも送信しました(ただし、 「インデックス付き」カウントはまだ報告されていません -SEE UPDATE BELOW)。正直なところ、私はあまり希望を持っていません-それがインデックスに登録された場合、私は驚かれることでしょう。 4xxコードだからというだけでなく、not 2xx成功コードだからです。

通常、「Fetch as Google」テストを実行してから、ページのインデックス作成をリクエストできます。これは通常、1ページに対して非常に高速(「インスタント」)ですが、このオプションは上記のページでは使用できません。

この4年前のブログ投稿によると、ステータス418はGoogleによって無視されます。

「無視」とは、200 OKステータスとして扱われることを意味します。 (文字通り無視され、Googleが「何も」しなかった場合を除いて、私の本で「無視」されるのと実際は同じではないのですか?) 4xxステータスを返すことは、少なくともかなりの時間(クロール速度に依存する)の間は、インデックスからページがドロップされるとは限りませんが、彼らは「数週間」待ったと伝えられています。また、Googleウェブマスターツールで報告されたクロールエラーについては言及していません(Google Search Consoleに変更されたため)。

「本当の」エラーではない

またはそれは?最初は「ジョーク」として実装されていたかもしれませんが、間違いなく「エラー状態」を示しています。 4xxコードがnotを「エラー状態」として扱うのはもっと矛盾すると思います。そして、それはまだ「現在」です。このステータスコードを定義した1998年からの元の RFC 2324 は、2014年に RFC 7168 で更新されました。

ほとんどのツールでは、418ステータスがエラーとして表示されます。または、成功として200のみを表示します。 「Apache log viewer」と「Screaming Frog SEO Spider」では、確実に418コードがエラーとして表示されます。

一部のWebサーバーは、418ステータスコードを実装すると報告されています。

Stack Exchangeは、CSRF違反を検出する際に、このHTTPステータスコードも利用します。

UPDATE 2017-03-31(2+週間後):418 HTTPステータスコードを返すページは、Googleによってインデックス化されません。 GSCのXMLサイトマップレポートでは、サイトマップで送信された2つのURLの1つのみがインデックス付けされることが示されています(一方のURLは200を返し、インデックス付けされ、他方は418を返し、インデックス付けされません).

ちなみに、GSCはサイトマップ内のURLのインデックスステータスをレポートするのに約2週間かかりましたが、これはページが実際にインデックス付けされた時期とは関係ありません。たとえば、サイトマップの送信時にすでに1つのページがインデックス付けされていましたが、サイトマップレポートだけを見ると、サイトマップが送信されてから13日後にのみページがインデックス付けされたようです。

418を返すURLは、[クロール]> [クロールエラー]で「クロールエラー」として報告され、418は応答コードとして示されます。レポートによると、これは2017-03-16(上記のインデックスリクエストを送信した翌日)に「検出」されましたが、GSCでこれが報告される前のある時期でした。

8
MrWhite