68

特に、いくつかの大規模な公開データセットを探しています。

  1. 匿名化された大規模なサンプル Web サーバー ログ。

  2. データベース パフォーマンスのベンチマークに使用されるデータセット。

大規模な公開データセットへのその他のリンクを歓迎します。Amazon のパブリック データセットについては、http: //aws.amazon.com/publicdatasets/で既に知っています。

4

13 に答える 13

30

1. 匿名化された大規模なサンプル Web サーバー ログ。

これらは最初から機能します。

これらよりもはるかに多くのデータセットが利用可能ですが (他の回答の全範囲を参照)、これは元の基準を満たす最も簡単な成果です。おまけとして、彼らが知っている可能性のある特定のニーズがある場合は、連絡先リンクがあります.

2. データベース パフォーマンスのベンチマークに使用されるデータセット。

明確に定義された アルゴリズムの 問​​題を説明する経験的なデータセットを求めているため、これは誤称のように聞こえます。具体的には、さまざまなデータベース システムをリアルタイムでテストおよびベンチマークするために使用できるデータ セットを見つけようとしているように思えます。お客様のニーズを満たす最も効率的なソリューション。

私はこのアプローチに同意しません。大量のデータベース システムとその既製の実装を見つけるよりも、最初の寄港地としてこれらのシステムのアルゴリズムの 保証を調べる方がはるかに優れています。ニーズを満たすアルゴリズムの制約を決定したら、インデックス作成、並べ替え、検索、挿入、削除、検索などの効率をベンチマークできる一連の定型ソリューションに磨きをかけることができます。

ウィキペディアには、ベンチマーク パフォーマンスのテスト ケースを決定して記述するために使用できる、データベース テストの概念に関する簡潔な記事があります。たとえば、JDBCJDBC Benchmarkなどの不可知論的データ アクセス インターフェイスを使用して、各操作の相対的なタイミングを判断できます。ここから、正しい解決策に磨きをかけることができます。

要するに、データベースの保証を決定するために最初に調査に行きます。一連の候補ソリューションが特定されたら、必要な各操作の一定時間のパフォーマンスをテスト (または別の方法で決定) することにより、それらの中から選択できます。

于 2012-04-23T19:51:30.653 に答える
27

Quora の回答と私の研究における個人的なコレクションに基づいて、 awesome-public-datasetsリポジトリが作成され、GitHub で活発に更新されました。

以下は、このリストのスナップショット バージョンです。最新のリストについては、Githubにアクセスしてください。

この公開データ ソースのリストは、ブログ、回答、およびユーザーの回答から収集および整理されています。以下にリストされているデータ セットのほとんどは無料ですが、一部のデータ セットは無料です。このリストはhttps://github.com/caesar0301/awesome-public-datasetsからのものです。

気候

経済

ファイナンス

生物学

物理

健康管理

ジオスペース

交通手段

政府

データの課題

機械学習

自然言語

画像処理

時系列

社会科学

複雑なネットワーク

コンピューターネットワーク

データ SE

公開ドメイン

補完的なコレクション

于 2014-11-23T03:26:19.373 に答える
9

ちょっとした考え:

于 2008-12-19T19:17:44.493 に答える
3

GoogleFusionTablesにはいくつかあります。

http://tables.googlelabs.com/

于 2010-05-25T22:35:43.600 に答える
3

Web サーバーのログについては、必要な形式でいつでも生成できます。それに対してコードをテストする場合などは、保存/解析するフィールドに合わせて調整する必要があります。

データベース パフォーマンスのベンチマークに使用されるデータセットについては、データを生成できるツールを検討することをお勧めします。Red Gateには、あまりお金をかけない素晴らしいものがあります。

于 2008-12-19T18:42:23.893 に答える
1

http://Quandl.comには、インターネット全体から収集された 1,000 万を超えるデータ セットがあります。このリソースの優れた点は、すべてのデータに 1 つの方法でアクセスできることです。このサイトには無料の Excel プラグインがあるか、R、Python、Ruby などのライブラリがあります。

于 2014-10-03T00:09:47.463 に答える
1

ここでも利用可能なデータセット。

于 2012-04-27T01:49:39.770 に答える
1

Kaggle.com では、データマイニングの課題が頻繁に発生します。データセットは、医療提供者のデータから信用履歴情報まで、幅広い分野をカバーしています。おそらくあなたが求めているものがあります。

于 2012-04-27T18:31:00.500 に答える
0

おそらく、顔認識アルゴリズムのトレーニングセットとして使用されるいくつかのデータベース:face-rec.org

于 2012-04-24T00:20:11.753 に答える
0

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

于 2012-03-30T04:04:28.323 に答える
0

さて、これは新しいものであり、その背後には課題があります。

ミリオン ソング データセット チャレンジ

于 2012-04-27T16:24:10.847 に答える
0

Google N-Grams について誰も言及していないことに驚いています。N-Grams の詳細については、 http: //googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.htmlをご覧ください。

于 2012-04-19T04:50:16.597 に答える