無料で低コストなHadoopを試すための大きなデータセットを知っていますか?関連するポインタ/リンクは大歓迎です。
好み:
少なくとも1 GBのデータ。
ウェブサーバーの運用ログデータ。
私が今まで見つけたそれらのいくつか:
また、独自のクローラーを実行して、サイトなどからデータを収集できますか?ウィキペディア?これを行う方法についてのポインタも歓迎します。
クロールとウィキペディアに関する質問についてのポイントはほとんどありません。
wikipediaデータダンプ にリンクしているため、UMDの Cloud9 プロジェクトを使用して、Hadoopでこのデータを操作できます。
彼らにはこれに関するページがあります: ウィキペディアでの作業
リストに追加する別のデータソースは次のとおりです。
クローラーを使用してデータを生成することは、私が言うHadoop/MapReduceについての別の質問に投稿する必要があります。
明らかなソース: Stack Overflow trilogy data dumps 。これらは、クリエイティブコモンズライセンスの下で無料で利用できます。
これは、機械学習用の189個のデータセットのコレクションです(hadoopgの最も優れたアプリケーションの1つです): http:// archive .ics.uci.edu/ml/datasets.html
ログファイルではありませんが、OpenStreetMapのplanetファイルを使用できます。 http://wiki.openstreetmap.org/wiki/Planet.osm
CCライセンス、約160 GB(アンパック)
大陸ごとに小さなファイルもあります: http://wiki.openstreetmap.org/wiki/World