web-dev-qa-db-ja.com

大規模なパブリックデータセット?

特に、いくつかの大規模なパブリックデータセットを探しています。

  1. 匿名化された大規模なサンプルWebサーバーログ。

  2. データベースパフォーマンスのベンチマークに使用されるデータセット。

大規模なパブリックデータセットへのその他のリンクをいただければ幸いです。私はすでにAmazonのパブリックデータセットについて知っています: http://aws.Amazon.com/publicdatasets/

63
Jason

1.匿名化された大規模なサンプルWebサーバーログ。

これらの作業は次から始めます。

これらよりも多くの非常に多くのデータセットが利用可能です(他の回答の範囲を参照)が、これは元の基準を満たす最低の垂れ下がった果物です。ボーナスとして、彼らは 連絡先リンク あなたが彼らが知っているかもしれない特定のニーズがあれば。

2.データベースパフォーマンスのベンチマークに使用されるデータセット。

well-definedalgorithmicproblems を記述する経験的データセットを求めているため、これは誤った呼び方のように聞こえます。具体的には、さまざまなデータベースシステムをリアルタイムでテストおよびベンチマークするために使用できるデータのセットを見つけようとしているようです。明確に正規化されたリレーショナルデータは、テストケースのセットとして使用して、ニーズを満たす最も効率的なソリューション。

このアプローチには同意しません。多数のデータベースシステムとそれらの既定の実装を見つける代わりに、これらのシステムの algorithmicguarantees を最初の呼び出しポートとして探索することをお勧めします。ニーズを満たすアルゴリズムの制約を決定したら、たとえば、インデックス作成、並べ替え、検索、挿入、削除、取得などの効率のベンチマークを行うことができる一連の定型ソリューションに注目することができます。

ウィキペディアには、 データベーステストの概念に関する簡潔な記事 があり、ベンチマークパフォーマンスのテストケースの決定と記述に使用できます。たとえば、 [〜#〜] jdbc [〜#〜]JDBC Benchmark などの不可知論者データアクセスインターフェイスを使用して、各操作の相対的なタイミングを決定できます。ここから、正しい解決策に磨きをかけることができます。

要するに、調査 に進んで、データベースの保証を決定します。候補となるソリューションのセットが特定されたら、希望する各操作の一定時間のパフォーマンスをテスト(またはその他の方法で決定)することにより、それらの中から選択できます。

29
MrGomez

Quora Answers および私の研究での個人コレクションに基づいて、GitHubで awesome-public-datasets リポジトリが作成および更新されました

以下は、このリストのスナップショットバージョンです。最新のリストについては、 Github をご覧ください。

この公開データソースのリストは、ブログ、回答、およびユーザーの応答から収集され整理されます。下記のデータセットのほとんどは無料ですが、一部は無料ではありません。このリストは https://github.com/caesar0301/awesome-public-datasets に由来します。

気候

経済

ファイナンス

生物学

物理

健康管理

GeoSpace

交通手段

政府

データの課題

機械学習

自然言語

画像処理

時系列

社会科学

複雑なネットワーク

コンピューターネットワーク

データSE

パブリックドメイン

補完コレクション

24
caesar0301
13
Gene De Lisa

ちょっとした考え:

9
Jason S

Google Fusion Tablesにはいくつかあります。

http://tables.googlelabs.com/

3
Carter Medlin

Webサーバーのログについては、必要な形式に合わせていつでも生成できます。コードをテストする場合などは、保存/解析するフィールドに合わせて調整する必要があります。

データベースパフォーマンスのベンチマークに使用されるデータセットについては、データを生成できるツールを検討することをお勧めします。レッドゲートには、あまりお金をかけないための素晴らしいものがあります。

3
kemiller2002

利用可能なデータセット こちら も同様です。

1
viper

http://Quandl.com には、インターネット全体から収集された1,000万を超えるデータセットがあります。このリソースの素晴らしい点は、すべてのデータにアクセスする単一の方法を提供することです。このサイトには無料のExcelプラグインがあるか、R、Python、Rubyなどのライブラリがあります。

1
Brian Risk

Kaggle.comにはデータマイニングの課題が頻繁にあります。データセットは、医療提供者データから信用履歴情報まで、幅広い分野をカバーしています。おそらくあなたが望んでいるものがそこにあります。

1
Rishi

おそらく、顔認識アルゴリズムのトレーニングセットとして使用されるいくつかのデータベース: face-rec.org

0
Mihai Todor

さて、これは新しく、その背後に課題があります:

ミリオンソングデータセットチャレンジ

0
zeroDivisible
0
alex

Google N-Gramsについて誰も言及していないことに驚いています。 N-Gramsの詳細は http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

0