web-dev-qa-db-ja.com

MediaWiki wikiをスクレイプ(ダウンロード)するためにどのソフトウェアを使用できますか?

MediaWikiソフトウェアを使用するウィキ全体をスクレイプしたいと思います。ページ数はかなり少ないですが、改訂が多いので、できれば改訂も削りたいと思います。

ウィキペディアとは異なり、ウィキはデータベースダンプを提供しません。 MediaWikiサイトをスクレイプするように設計された既存のソフトウェア/スクリプトはありますか?

7
apscience

ウィキのメンテナがオフにしていない場合は、 Special:Export を使用して履歴付きのページをエクスポートできます。これにより、ウィキペディアのデータベースダンプと同様のXMLダンプが得られ、別のウィキにインポートできます。

MediaWikiからXML形式でページ履歴を取得する別の方法は、 prop = Revisions APIクエリ を使用することです。ただし、APIの結果形式はSpecial:Exportによって生成される形式とは多少異なるため、標準のインポートスクリプトにフィードする前に、出力を少し処理する必要があります。

3
Ilmari Karonen

WikiTeamから入手できるツールを確認してください。 http://archiveteam.org/index.php?title=WikiTeam

私は個人的にwikiteamのdumpgenerator.pyを使用しています。これはここから入手できます: https://github.com/WikiTeam/wikiteam

python 2. gitを使用してソフトウェアを入手するか、githubからZipをダウンロードできます。

git clone https://github.com/WikiTeam/wikiteam.git

基本的な使用法は次のとおりです。

python dumpgenerator.py http://wiki.domain.org --xml --images
6
TimSC