特に、いくつかの大規模な公開データセットを探しています。
匿名化された大規模なサンプル Web サーバー ログ。
データベース パフォーマンスのベンチマークに使用されるデータセット。
大規模な公開データセットへのその他のリンクを歓迎します。Amazon のパブリック データセットについては、http: //aws.amazon.com/publicdatasets/で既に知っています。
特に、いくつかの大規模な公開データセットを探しています。
匿名化された大規模なサンプル Web サーバー ログ。
データベース パフォーマンスのベンチマークに使用されるデータセット。
大規模な公開データセットへのその他のリンクを歓迎します。Amazon のパブリック データセットについては、http: //aws.amazon.com/publicdatasets/で既に知っています。
1. 匿名化された大規模なサンプル Web サーバー ログ。
これらは最初から機能します。
これらよりもはるかに多くのデータセットが利用可能ですが (他の回答の全範囲を参照)、これは元の基準を満たす最も簡単な成果です。おまけとして、彼らが知っている可能性のある特定のニーズがある場合は、連絡先リンクがあります.
2. データベース パフォーマンスのベンチマークに使用されるデータセット。
明確に定義された アルゴリズムの 問題を説明する経験的なデータセットを求めているため、これは誤称のように聞こえます。具体的には、さまざまなデータベース システムをリアルタイムでテストおよびベンチマークするために使用できるデータ セットを見つけようとしているように思えます。お客様のニーズを満たす最も効率的なソリューション。
私はこのアプローチに同意しません。大量のデータベース システムとその既製の実装を見つけるよりも、最初の寄港地としてこれらのシステムのアルゴリズムの 保証を調べる方がはるかに優れています。ニーズを満たすアルゴリズムの制約を決定したら、インデックス作成、並べ替え、検索、挿入、削除、検索などの効率をベンチマークできる一連の定型ソリューションに磨きをかけることができます。
ウィキペディアには、ベンチマーク パフォーマンスのテスト ケースを決定して記述するために使用できる、データベース テストの概念に関する簡潔な記事があります。たとえば、JDBCやJDBC Benchmarkなどの不可知論的データ アクセス インターフェイスを使用して、各操作の相対的なタイミングを判断できます。ここから、正しい解決策に磨きをかけることができます。
要するに、データベースの保証を決定するために最初に調査に行きます。一連の候補ソリューションが特定されたら、必要な各操作の一定時間のパフォーマンスをテスト (または別の方法で決定) することにより、それらの中から選択できます。
Quora の回答と私の研究における個人的なコレクションに基づいて、 awesome-public-datasetsリポジトリが作成され、GitHub で活発に更新されました。
以下は、このリストのスナップショット バージョンです。最新のリストについては、Githubにアクセスしてください。
この公開データ ソースのリストは、ブログ、回答、およびユーザーの回答から収集および整理されています。以下にリストされているデータ セットのほとんどは無料ですが、一部のデータ セットは無料です。このリストはhttps://github.com/caesar0301/awesome-public-datasetsからのものです。
ここにいくつかあります。楽しむ。
http://archive.ics.uci.edu/ml/
http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1
http://gettingpastgo.socrata.com
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://timetric.com/public-data/
http://www.dartmouthatlas.org/
ちょっとした考え:
GoogleFusionTablesにはいくつかあります。
Web サーバーのログについては、必要な形式でいつでも生成できます。それに対してコードをテストする場合などは、保存/解析するフィールドに合わせて調整する必要があります。
データベース パフォーマンスのベンチマークに使用されるデータセットについては、データを生成できるツールを検討することをお勧めします。Red Gateには、あまりお金をかけない素晴らしいものがあります。
http://Quandl.comには、インターネット全体から収集された 1,000 万を超えるデータ セットがあります。このリソースの優れた点は、すべてのデータに 1 つの方法でアクセスできることです。このサイトには無料の Excel プラグインがあるか、R、Python、Ruby などのライブラリがあります。
ここでも利用可能なデータセット。
Kaggle.com では、データマイニングの課題が頻繁に発生します。データセットは、医療提供者のデータから信用履歴情報まで、幅広い分野をカバーしています。おそらくあなたが求めているものがあります。
おそらく、顔認識アルゴリズムのトレーニングセットとして使用されるいくつかのデータベース:face-rec.org
さて、これは新しいものであり、その背後には課題があります。
Google N-Grams について誰も言及していないことに驚いています。N-Grams の詳細については、 http: //googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.htmlをご覧ください。