MediaWikiソフトウェアを使用するウィキ全体をスクレイプしたいと思います。ページ数はかなり少ないですが、改訂が多いので、できれば改訂も削りたいと思います。
ウィキペディアとは異なり、ウィキはデータベースダンプを提供しません。 MediaWikiサイトをスクレイプするように設計された既存のソフトウェア/スクリプトはありますか?
ウィキのメンテナがオフにしていない場合は、 Special:Export を使用して履歴付きのページをエクスポートできます。これにより、ウィキペディアのデータベースダンプと同様のXMLダンプが得られ、別のウィキにインポートできます。
MediaWikiからXML形式でページ履歴を取得する別の方法は、 prop = Revisions APIクエリ を使用することです。ただし、APIの結果形式はSpecial:Exportによって生成される形式とは多少異なるため、標準のインポートスクリプトにフィードする前に、出力を少し処理する必要があります。
WikiTeamから入手できるツールを確認してください。 http://archiveteam.org/index.php?title=WikiTeam
私は個人的にwikiteamのdumpgenerator.pyを使用しています。これはここから入手できます: https://github.com/WikiTeam/wikiteam
python 2. gitを使用してソフトウェアを入手するか、githubからZipをダウンロードできます。
git clone https://github.com/WikiTeam/wikiteam.git
基本的な使用法は次のとおりです。
python dumpgenerator.py http://wiki.domain.org --xml --images