特に、いくつかの大規模なパブリックデータセットを探しています。
匿名化された大規模なサンプルWebサーバーログ。
データベースパフォーマンスのベンチマークに使用されるデータセット。
大規模なパブリックデータセットへのその他のリンクをいただければ幸いです。私はすでにAmazonのパブリックデータセットについて知っています: http://aws.Amazon.com/publicdatasets/
1.匿名化された大規模なサンプルWebサーバーログ。
これらの作業は次から始めます。
これらよりも多くの非常に多くのデータセットが利用可能です(他の回答の範囲を参照)が、これは元の基準を満たす最低の垂れ下がった果物です。ボーナスとして、彼らは 連絡先リンク あなたが彼らが知っているかもしれない特定のニーズがあれば。
2.データベースパフォーマンスのベンチマークに使用されるデータセット。
well-definedalgorithmicproblems を記述する経験的データセットを求めているため、これは誤った呼び方のように聞こえます。具体的には、さまざまなデータベースシステムをリアルタイムでテストおよびベンチマークするために使用できるデータのセットを見つけようとしているようです。明確に正規化されたリレーショナルデータは、テストケースのセットとして使用して、ニーズを満たす最も効率的なソリューション。
このアプローチには同意しません。多数のデータベースシステムとそれらの既定の実装を見つける代わりに、これらのシステムの algorithmicguarantees を最初の呼び出しポートとして探索することをお勧めします。ニーズを満たすアルゴリズムの制約を決定したら、たとえば、インデックス作成、並べ替え、検索、挿入、削除、取得などの効率のベンチマークを行うことができる一連の定型ソリューションに注目することができます。
ウィキペディアには、 データベーステストの概念に関する簡潔な記事 があり、ベンチマークパフォーマンスのテストケースの決定と記述に使用できます。たとえば、 [〜#〜] jdbc [〜#〜] や JDBC Benchmark などの不可知論者データアクセスインターフェイスを使用して、各操作の相対的なタイミングを決定できます。ここから、正しい解決策に磨きをかけることができます。
要するに、調査 に進んで、データベースの保証を決定します。候補となるソリューションのセットが特定されたら、希望する各操作の一定時間のパフォーマンスをテスト(またはその他の方法で決定)することにより、それらの中から選択できます。
Quora Answers および私の研究での個人コレクションに基づいて、GitHubで awesome-public-datasets リポジトリが作成および更新されました
以下は、このリストのスナップショットバージョンです。最新のリストについては、 Github をご覧ください。
この公開データソースのリストは、ブログ、回答、およびユーザーの応答から収集され整理されます。下記のデータセットのほとんどは無料ですが、一部は無料ではありません。このリストは https://github.com/caesar0301/awesome-public-datasets に由来します。
ちょっとした考え:
Google Fusion Tablesにはいくつかあります。
Webサーバーのログについては、必要な形式に合わせていつでも生成できます。コードをテストする場合などは、保存/解析するフィールドに合わせて調整する必要があります。
データベースパフォーマンスのベンチマークに使用されるデータセットについては、データを生成できるツールを検討することをお勧めします。レッドゲートには、あまりお金をかけないための素晴らしいものがあります。
利用可能なデータセット こちら も同様です。
http://Quandl.com には、インターネット全体から収集された1,000万を超えるデータセットがあります。このリソースの素晴らしい点は、すべてのデータにアクセスする単一の方法を提供することです。このサイトには無料のExcelプラグインがあるか、R、Python、Rubyなどのライブラリがあります。
Kaggle.comにはデータマイニングの課題が頻繁にあります。データセットは、医療提供者データから信用履歴情報まで、幅広い分野をカバーしています。おそらくあなたが望んでいるものがそこにあります。
おそらく、顔認識アルゴリズムのトレーニングセットとして使用されるいくつかのデータベース: face-rec.org
さて、これは新しく、その背後に課題があります:
Google N-Gramsについて誰も言及していないことに驚いています。 N-Gramsの詳細は http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html