大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと思っています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか、それともオンラインで利用できるウィキペディアの公開データセットがありますか?
私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idfを適用して各単語の用語頻度を計算し、選択する予定です。頻度の高いもの。しかし、tfを計算するには、ウィキペディア全体での合計発生数を知る必要があります。
これはどのように行うことができますか?
ウィキペディアから: http://en.wikipedia.org/wiki/Wikipedia_database
ウィキペディアは、関心のあるユーザーに利用可能なすべてのコンテンツの無料コピーを提供しています。これらのデータベースは、ミラーリング、個人使用、非公式バックアップ、オフライン使用、またはデータベースクエリ(Wikipedia:Maintenanceなど)に使用できます。すべてのテキストコンテンツは、Creative Commons Attribution-ShareAlike 3.0 License(CC-BY-SA)およびGNU Free Documentation License(GFDL)の下でマルチライセンスされています。画像およびその他のファイルは、さまざまな方法で入手できます。これらのライセンスの遵守に関するアドバイスについては、Wikipedia:Copyrightsを参照してください。
あなたも運が良さそうです。ダンプセクションから:
2010年3月12日の時点で、英語版ウィキペディアの最新の完全なダンプは次の場所にあります http://download.wikimedia.org/enwiki/20100130/ これは英語の最初の完全なダンプです-言語ウィキペディアは2008年以降に作成されています。最近のダンプ(20100312ダンプなど)は不完全であることに注意してください。
したがって、データはわずか9日です:)
Mediawiki XMLではなくテキストのみのバージョンが必要な場合は、ここからダウンロードできます: http://kopiwiki.dsd.sztaki.hu/
ダンプのサイズを考慮すると、英語のWord頻度を使用するか、 MediaWiki API を使用してページをランダムに(または最も参照されているページ)ポーリングする方がよいでしょう。このAPI(Ruby、C#など)に基づいてボットを構築するためのフレームワークがあります。
最新のウィキペディアデータセットはすべて、次の場所からダウンロードできます。 Wikimedia 利用可能な最新の日付をクリックしてください。