W3Cリンクチェッカー を使用していると、Github Wikiをクロールできないことがわかりました。
https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
ステータス:(N/A)robots.txtにより禁止されています
検索エンジンでこのWikiを簡単に見つけてもらいたいので、これは残念です。
質問:Github Wikiを検索エンジンでクロール可能にするにはどうすればよいですか?
それとも間違っているのか、Githubのrobots.txtは実際に問題ないのか?
GitHub robots.txt は、Googlebotセクションなどで、Wikiページのクロールを明示的に禁止します。
User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*
これはサイト全体のロボットファイルであるため、回避することはできません。
GitHub wikiの説明 は「プロジェクトに関する長い形式のコンテンツを共有する」場所として、これは興味深い選択です。デフォルトでは公開ウィキはすべてのユーザーが編集できるため、おそらくスパマーからの強力な保護です。
GitHub wikiは、それをサポートするエンジンで検索できます。 https://github.com/robots.txt の最初の2行を参照してください:
# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/
これはおそらく、さまざまなWiki形式などを解析するためです。
たとえば、Googleで「openrefine broker protocol」を検索すると、最初のヒットはGithubプロジェクトwikiのページです。