database - 大規模な公開データセット?

Question

特に、いくつかの大規模な公開データセットを探しています。

匿名化された大規模なサンプル Web サーバーログ。
データベースパフォーマンスのベンチマークに使用されるデータセット。

大規模な公開データセットへのその他のリンクを歓迎します。Amazon のパブリックデータセットについては、http: //aws.amazon.com/publicdatasets/で既に知っています。

score 30 · Accepted Answer

1. 匿名化された大規模なサンプル Web サーバーログ。

これらは最初から機能します。

UCI 機械学習リポジトリ

これらよりもはるかに多くのデータセットが利用可能ですが (他の回答の全範囲を参照)、これは元の基準を満たす最も簡単な成果です。おまけとして、彼らが知っている可能性のある特定のニーズがある場合は、連絡先リンクがあります.

2. データベースパフォーマンスのベンチマークに使用されるデータセット。

明確に定義されたアルゴリズムの問題を説明する経験的なデータセットを求めているため、これは誤称のように聞こえます。具体的には、さまざまなデータベースシステムをリアルタイムでテストおよびベンチマークするために使用できるデータセットを見つけようとしているように思えます。お客様のニーズを満たす最も効率的なソリューション。

私はこのアプローチに同意しません。大量のデータベースシステムとその既製の実装を見つけるよりも、最初の寄港地としてこれらのシステムのアルゴリズムの保証を調べる方がはるかに優れています。ニーズを満たすアルゴリズムの制約を決定したら、インデックス作成、並べ替え、検索、挿入、削除、検索などの効率をベンチマークできる一連の定型ソリューションに磨きをかけることができます。

ウィキペディアには、ベンチマークパフォーマンスのテストケースを決定して記述するために使用できる、データベーステストの概念に関する簡潔な記事があります。たとえば、JDBCやJDBC Benchmarkなどの不可知論的データアクセスインターフェイスを使用して、各操作の相対的なタイミングを判断できます。ここから、正しい解決策に磨きをかけることができます。

要するに、データベースの保証を決定するために最初に調査に行きます。一連の候補ソリューションが特定されたら、必要な各操作の一定時間のパフォーマンスをテスト (または別の方法で決定) することにより、それらの中から選択できます。

score 27 · Accepted Answer

Quora の回答と私の研究における個人的なコレクションに基づいて、 awesome-public-datasetsリポジトリが作成され、GitHub で活発に更新されました。

以下は、このリストのスナップショットバージョンです。最新のリストについては、Githubにアクセスしてください。

この公開データソースのリストは、ブログ、回答、およびユーザーの回答から収集および整理されています。以下にリストされているデータセットのほとんどは無料ですが、一部のデータセットは無料です。このリストはhttps://github.com/caesar0301/awesome-public-datasetsからのものです。

気候

オーストラリアの天気: http://www.bom.gov.au/climate/dwo/
気候データ: http://www.cru.uea.ac.uk/cru/data/temperature/#datterおよびftp://ftp.cmdl.noaa.gov/
1929 年以降の全球気候データ: http://www.tutiempo.net/en/Climate
NOAA ベーリング海の気候: http://www.beringclimate.noaa.gov/
NOAA 気候データセット: http://ncdc.noaa.gov/data-access/quick-links
世界の WU 過去の天気: http://www.wunderground.com/history/index.html

経済

アメリカン・エコノミック・アス。(AEA): http://www.aeaweb.org/RFE/toc.php?show=complete
EconData (UMD): http://inforumweb.umd.edu/econdata/econdata.html
インターネット製品コードデータベース: http://www.upcdatabase.com/
世界銀行: http://data.worldbank.org/indicator

ファイナンス

CBOE 先物取引所: http://cfe.cboe.com/Data/
Google ファイナンス: https://www.google.com/finance
Google トレンド: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
ナスダック: https://data.nasdaq.com/
OANDA: http://www.oanda.com/
OSU 財務データ: http://fisher.osu.edu/fin/osudata.htm
Quandl: http://www.quandl.com/
セントルイス連邦: http://research.stlouisfed.org/fred2/
Yahooファイナンス: http://finance.yahoo.com/

生物学

CRCNS: http://crcns.org/data-sets
遺伝子発現オムニバス: http://www.ncbi.nlm.nih.gov/geo/
ヒトマイクロバイオームプロジェクト: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
MIT がんゲノムデータ: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH マイクロアレイデータ: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
タンパク質構造: http://www.infobiotic.net/PSPbenchmarks/
公開遺伝子データ: http://www.pubgene.org/
スタンフォードマイクロアレイデータ: http://smd.stanford.edu/
ユニジーン: http://www.ncbi.nlm.nih.gov/unigene

物理

NASA: http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

健康管理

EHDP 大規模なヘルスデータセット: http://www.ehdp.com/vitalnet/datasets.htm
Gapminder: http://www.gapminder.org/data/
メディケアデータファイル: http://go.cms.gov/19xxPN4

ジオスペース

EOSDIS: http://sedac.ciesin.columbia.edu/data/sets/browse
事実上のグローバル位置データ: http://www.factual.com/
地理空間データ: http://geodacenter.asu.edu/datalist/

交通手段

航空会社データ (2009 ASA チャレンジ): http://stat-computing.org/dataexpo/2009/the-data.html
空港とその場所: http://www.infochimps.com/datasets/airports-and-their-locations
自転車シェアデータシステム: https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
1990 年から 2009 年までの米国国内線のエッジデータ: http://data.memect.com/?p=229
50 万回のハブウェイ乗車: http://hubwaydatachallenge.org/trip-history-data/
NYC タクシー乗車データ 2013 (FOIA/FOIL): https://archive.org/details/nycTaxiTripData2013
OpenFlights (空港、航空会社、ルートデータ): http://openflights.org/data.html
RITA 航空会社の定時運行データ: http://www.transtats.bts.gov/Tables.asp?DB_ID=120
RITA トランスポートデータコレクション: http://www.transstats.bts.gov/DataIndex.asp
ロンドンの交通機関: http://www.tfl.gov.uk/info-for/open-data-users/our-feeds
米国貨物分析フレームワーク: http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm

政府

Archive-it: : https://www.archive-it.org/explore?show=Collections
オーストラリア: http://www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
カナダ: http://www.data.gc.ca/default.asp?lang=En&n=5BCD274E-1
シカゴ: https://data.cityofchicago.org/
FDA: https://open.fda.gov/index.html
連邦機関の統計: http://www.fedstats.gov/cgi-bin/A2Z.cgi
ガーディアン世界政府: http://www.guardian.co.uk/world-government-data
HUD: http://www.huduser.org/portal/datasets/pdrdatas.html
ロンドンデータストア、英国: http://data.london.gov.uk/dataset
ニュージーランド: http://www.stats.govt.nz/browse_for_stats.aspx
NYC ベタニーク: http://betanyc.us/
NYC オープンデータ: http://nycplatform.socrata.com/
OECD: http://www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
RITA: http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
サンフランシスコデータセット: http://datasf.org/
世界銀行: http://wdronline.worldbank.org/
英国政府データ: http://data.gov.uk/data
米国国勢調査局: http://www.census.gov/data.html
米国連邦政府機関: http://www.data.gov/metric
米国連邦政府データカタログ: http://catalog.data.gov/dataset
US オープンガバメント: http://www.data.gov/open-gov/
UK 2011 Census Open Atlas Project: http://www.alex-singleton.com/2011-census-open-atlas-project/
国連: http://data.un.org/
米国 CDC 公衆衛生データセット: http://www.cdc.gov/nchs/data_access/ftp_data.htm

データの課題

機械学習の課題: http://www.chalearn.org/
ICWSM データチャレンジ (2009 年以降): http://icwsm.cs.umbc.edu/
Kaggle の競合データ: http://www.kaggle.com/
Tencent 2012 による KDD カップ: https://www.kddcup2012.org/
Netflix賞: http://www.netflixprize.com/leaderboard
Yelp データセットチャレンジ: http://www.yelp.com/dataset_challenge

機械学習

eBay オンラインオークション: http://www.modelingonlineauctions.com/datasets
IMDb データベース: http://www.imdb.com/interfaces
キールリポジトリ: http://sci2s.ugr.es/keel/datasets.php
レンディングクラブのローンデータ: https://www.lendingclub.com/info/download-data.action
機械学習データセットのリポジトリ: http://mldata.org/
ミリオンソングデータセット: http://blog.ehonest.com/post/3639160982/million-song-dataset
その他の曲のデータセット: http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
MovieLens データセット: http://datahub.io/dataset/movielens
RDataMining R およびデータマイニングの電子ブックデータ: http://www.rdatamining.com/data
地球上の登録隕石: http://www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
SF レストランデータセット: http://missionlocal.org/san-francisco-restaurant-health-inspections/
UCI 機械学習リポジトリ: http://archive.ics.uci.edu/ml/
トロント大学 Delve データセット: http://www.cs.toronto.edu/~delve/data/datasets.html
Yahoo 評価および分類データ: http://webscope.sandbox.yahoo.com/catalog.php?datatype=r

自然言語

コンテキスト内の 4000 万のエンティティ: https://code.google.com/p/wiki-links/downloads/list
ClueWeb09 FACC: http://lemurproject.org/clueweb09/FACC1/
ClueWeb12 FACC: http://lemurproject.org/clueweb12/FACC1/
Flickr の個人分類: http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
Google ブックス Ngram: http://aws.amazon.com/datasets/8172056142375670
Google Web 5gram、2006 (1T): https://catalog.ldc.upenn.edu/LDC2006T13
グーテンベルグの電子書籍リスト: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
ハンサード: http://www.isi.edu/natural-language/download/hansard/
機械翻訳: http://statmt.org/wmt11/translation-task.html#download
SMS スパムコレクション: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
USENET コーパス: http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
ワードネット: http://wordnet.princeton.edu/wordnet/download/

画像処理

猫の写真2GB：http: //bit.do/UJZZ
顔認識ベンチマーク: http://www.face-rec.org/databases/
イメージネット: http://www.image-net.org/

時系列

時系列データライブラリ: https://datamarket.com/data/list/?q=provider:tsdl
UC リバーサイド時系列: http://www.cs.ucr.edu/~eamonn/time_series_data/

社会科学

中国のホテルのチェックイン/チェックアウトデータ: http://www.360doc.com/content/13/1105/13/7863900_326788919.shtml
CMU エンロン電子メール: http://www.cs.cmu.edu/~enron/
Facebook ソーシャルネットワーク (2007 年以降): http://law.di.unimi.it/datasets.php
Facebook100 (2005): https://archive.org/details/oxford-2005-facebook-matrix
フォースクエア (2010、2011): http://www.public.asu.edu/~hgao16/dataset.html
フォースクエア (UMN/Sarwat、2013 年): https://archive.org/details/201309_foursquare_dataset_umn
一般社会調査 (GSS): http://www3.norc.org/GSS+Website/
GetGlue (テレビ番組を評価するユーザー): http://getglue-data.s3.amazonaws.com/getglue_sample.tar.gz
GitHub アーカイブ: http://www.githubarchive.org/
ICPSR: http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
モバイルソーシャルネットワーク (UMASS): https://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
ピューリサーチインターネットプロジェクト: http://www.pewinternet.org/datasets/pages/2/
ソーシャルネットワーキング: http://www.cs.cmu.edu/~jelsas/data/ancestry.com/
SourceForge グラフ: http://www.nd.edu/~oss/Data/data.html
タイタニックサバイバルデータセット: https://github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
Twitter グラフ: http://an.kaist.ac.kr/traces/WWW2010.html
UC バークレーの D-Lab アチーブ: http://ucdata.berkeley.edu/
UCLA 社会科学データアーカイブ: http://dataarchives.ss.ucla.edu/Home.DataPortals.htm
UNIMI ソーシャルネットワークデータセット: http://law.di.unimi.it/datasets.php
世界の大学: http://univ.cc/
UPJOHN for Employment Research: http://www.upjohn.org/erdc/erdc.html
Yahoo グラフとソーシャルデータ: http://webscope.sandbox.yahoo.com/catalog.php?datatype=g
YouTube グラフ (2007、2008): http://netsg.cs.sfu.ca/youtubedata/

複雑なネットワーク

CrossRef DOI URL: https://archive.org/details/doi-urls
DBLP 引用データセット: https://kdl.cs.umass.edu/display/public/DBLP
NBER 特許引用: http://nber.org/patents/
NIST 複雑なネットワークデータコレクション: http://math.nist.gov/~RPozo/complex_datasets.html
タンパク質間相互作用ネットワーク: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
PyPI および Maven 依存関係ネットワーク: http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
Scopus引用データベース: http://www.elsevier.com/online-tools/scopus
Stanford GraphBase (Steven Skiena): http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
スタンフォード大規模ネットワークデータセットコレクション: http://snap.stanford.edu/data/
コブレンツネットワークコレクション: http://konect.uni-koblenz.de/
UCI ネットワークデータリポジトリ: http://networkdata.ics.uci.edu/resources.php
UFL 疎行列コレクション: http://www.cise.ufl.edu/research/sparse/matrices/
UNIMI 大規模 Web グラフ: http://law.di.unimi.it/datasets.php
WSU グラフデータベース: http://www.eecs.wsu.edu/mgd/gdb.html

コンピューターネットワーク

35 億の Web ページ: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
5,350 億回の Web クリック: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
CAIDA インターネットデータセット: http://www.caida.org/data/overview/
ClueWeb09: http://lemurproject.org/clueweb09/
ClueWeb12: http://lemurproject.org/clueweb12/
CommonCrawl Web データ: http://commoncrawl.org/the-data/get-started/
ダートマス CRAWDAD ワイヤレスデータセット: http://crawdad.cs.dartmouth.edu/
OpenMobileData (MobiPerf): https://console.developers.google.com/storage/openmobiledata_public/
UCSD ネットワーク望遠鏡: http://www.caida.org/projects/network_telescope/

データ SE

アカデミックトレント: http://academictorrents.com/
Datahub.io: http://datahub.io/dataset
データマーケット: https://datamarket.com/data/list/?q=all
ハーバードデータバース: http://thedata.harvard.edu/dvn/
スタティスタ: http://www.statista.com/
フリーベース: http://www.freebase.com/

公開ドメイン

アマゾン: http://aws.amazon.com/datasets
Archive.org データセット: https://archive.org/details/datasets
CMU JASA データアーカイブ: http://lib.stat.cmu.edu/jasadata/
CMU StatLab コレクション: http://lib.stat.cmu.edu/datasets/
Data360: http://www.data360.org/index.aspx
Datamob.org: http://datamob.org/datasets
Google: http://www.google.com/publicdata/directory
インフォチンプス: http://www.infochimps.com/
KDNuggets データコレクション: http://www.kdnuggets.com/datasets/index.html
ナンブレイ：http ://numbrary.com/
RevolutionAnalytics コレクション: http://www.revolutionanalytics.com/subscriptions/datasets/
サンプル R データセット: http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
Stats4Stem R データセット: http://www.stats4stem.org/data-sets.html
StatSci.org: http://www.statsci.org/datasets.html
ワシントン・ポストのリスト: http://www.washingtonpost.com/wp-srv/metro/data/datapost.html
UCLA SOCR データコレクション: http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
UFO レポート: http://www.nuforc.org/webreports.html
ウィキリークス 911 ポケットベル傍受: http://911.wikileaks.org/files/index.html
Yahoo ウェブスコープ: http://webscope.sandbox.yahoo.com/catalog.php

補完的なコレクション

DataWrangling: http://www.datawrangling.com/some-datasets-available-on-the-web
Inside-r: http://www.inside-r.org/howto/finding-data-internet
Quora: http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
RS コレクション 100+ : http://rs.io/2014/05/29/list-of-data-sets.html
StaTrek: http://hsiamin.com/posts/2014/10/23/leveraging-open-data-to-understand-urban-lives/

score 13 · Accepted Answer

ここにいくつかあります。楽しむ。

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com

https://datamarket.azure.com/

http://ftp.ncbi.nih.gov/

http://gettingpastgo.socrata.com

http://books.google.com/ngrams/

http://linkeddata.org/

http://medihal.archives-ouvertes.fr

http://public.resource.org/

http://rechercheisidore.fr

http://reddit.com/r/datasets

http://timetric.com/public-data/

http://www2.jpl.nasa.gov/srtm

http://www.bls.gov/

http://www.crunchbase.com/

http://www.dartmouthatlas.org/

http://www.data.gov/

http://www.datakc.org

http://www.factual.com/

http://www.freebase.com/

http://www.infochimps.com

http://www.kaggle.com/

http://build.kiva.org/

http://www.imdb.com/interfaces

http://dbpedia.org

score 9 · Accepted Answer

ちょっとした考え：

USGS 地名データベース
USDA 植物チェックリスト
NH のGRANITなど、多くの州の GIS リポジトリのいずれか

score 3 · Accepted Answer

3

GoogleFusionTablesにはいくつかあります。

http://tables.googlelabs.com/

于 2010-05-25T22:35:43.600 に答える

score 3 · Accepted Answer

Web サーバーのログについては、必要な形式でいつでも生成できます。それに対してコードをテストする場合などは、保存/解析するフィールドに合わせて調整する必要があります。

データベースパフォーマンスのベンチマークに使用されるデータセットについては、データを生成できるツールを検討することをお勧めします。Red Gateには、あまりお金をかけない素晴らしいものがあります。

score 1 · Accepted Answer

http://Quandl.comには、インターネット全体から収集された 1,000 万を超えるデータセットがあります。このリソースの優れた点は、すべてのデータに 1 つの方法でアクセスできることです。このサイトには無料の Excel プラグインがあるか、R、Python、Ruby などのライブラリがあります。

score 1 · Accepted Answer

1

ここでも利用可能なデータセット。

于 2012-04-27T01:49:39.770 に答える

score 1 · Accepted Answer

Kaggle.com では、データマイニングの課題が頻繁に発生します。データセットは、医療提供者のデータから信用履歴情報まで、幅広い分野をカバーしています。おそらくあなたが求めているものがあります。

score 0 · Accepted Answer

おそらく、顔認識アルゴリズムのトレーニングセットとして使用されるいくつかのデータベース：face-rec.org

score 0 · Accepted Answer

0

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

于 2012-03-30T04:04:28.323 に答える

score 0 · Accepted Answer

さて、これは新しいものであり、その背後には課題があります。

ミリオンソングデータセットチャレンジ

score 0 · Accepted Answer

Google N-Grams について誰も言及していないことに驚いています。N-Grams の詳細については、 http: //googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.htmlをご覧ください。