XML、HTML、およびXHTMLドキュメントの正しいコンテンツタイプは何ですか?
これらの種類のファイルのみを取得する単純なクローラーを作成する必要があります。
最近では http://example.net/index.html はmod_rewriteにより、たとえばJPEGファイルを提供できるため、応答ヘッダーからcontent-typeを確認し、許可されたリストと比較する必要がありますコンテンツタイプ。
そのようなリストはどこから入手できますか?
HTML:text/html
、フルストップ。
XHTML:application/xhtml+xml
、またはHTML互換性ガイドラインtext/html
に従う場合のみ。 W3 Media Types Note を参照してください。
XML:text/xml
、application/xml
( RFC 2376 )。
また、application/rss+xml
やimage/svg+xml
など、XMLに基づいた他の多くのメディアタイプもあります。 +xml
で終わる、認識されないが登録されているものはすべてXMLベースであることは間違いありません。 +xml
で終わる登録済みメディアタイプについては、 IANAリスト を参照してください。
(未登録のx-
タイプの場合、すべてのベットはオフになりますが、+xml
が尊重されることを望みます。)