python - Python のサンプルデータセットはありますか?

Question

迅速なテスト、デバッグ、移植可能な例の作成、およびベンチマークのために、R には多数のデータセット (Base Rdatasetsパッケージ内) が用意されています。R プロンプトのコマンドlibrary(help="datasets")は、約 100 の履歴データセットを記述し、それぞれに説明とメタデータが関連付けられています。

Pythonにこのようなものはありますか？

score 60 · Accepted Answer

package を使用rpy2して、Python からすべての R データセットにアクセスできます。

インターフェイスをセットアップします。

>>> from rpy2.robjects import r, pandas2ri
>>> def data(name): 
...    return pandas2ri.ri2py(r[name])

次に、使用可能なデータセットの任意のデータセットの名前で呼び出しdata()ます (のようにR)

>>> df = data('iris')
>>> df.describe()
       Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000

使用可能なデータセットのリストとそれぞれの説明を表示するには:

>>> print(r.data())

注: rpy2 は変数Rを設定してインストールする必要があり、同様にインストールする必要があります。R_HOMEpandas

アップデート

PyDatasetを作成しました。これは、Python からのデータセットのロードをのように簡単にするための単純なモジュールです(インストールRは不要で、のみです)。Rpandas

使用を開始するには、モジュールをインストールします。

$ pip install pydataset

次に、必要なデータセットをロードするだけです (現在、約 757 個のデータセットが利用可能です)。

from pydataset import data

titanic = data('titanic')

score 20 · Accepted Answer

Scikit-Learnライブラリから利用可能なデータセットもあります。

from sklearn import datasets

このパッケージには複数のデータセットがあります。おもちゃのデータセットの一部は次のとおりです。

load_boston()          Load and return the boston house-prices dataset (regression).
load_iris()            Load and return the iris dataset (classification).
load_diabetes()        Load and return the diabetes dataset (regression).
load_digits([n_class]) Load and return the digits dataset (classification).
load_linnerud()        Load and return the linnerud dataset (multivariate regression).

score 4 · Accepted Answer

Joranのコメントに従って、独自のパッケージを提供するstatsmodelsモジュールを見つけました。オンラインドキュメントには、R で利用可能なデータセットをインポートする方法の例が示されていますdatasets。

import statsmodels.api as sm
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
print duncan_prestige.__doc__

score 1 · Accepted Answer

MyMVPA は、データベースへの簡単なアクセスを提供する別のモジュールです。以下のリンクで確認できます。

>>> from mvpa2.tutorial_suite import *
>>> data = [[  1,  1, -1],
...         [  2,  0,  0],
...         [  3,  1,  1],
...         [  4,  0, -1]]
>>> ds = Dataset(data)
>>> ds.shape
(4, 3)
>>> len(ds)
4

リンクからの例

http://www.pymvpa.org/tutorial_datasets.html

score 0 · Accepted Answer

具体的には、@tmthydvnprt の例を使用します。

from sklearn import datasets
iris = datasets.load_iris()

実際のデータセットは、を実行して呼び出すことができますiris.data。

http://scikit-learn.org/stable/datasets/

Python 3.5 の実行

python - Python のサンプル データ セットはありますか?

6 に答える 6

アップデート

Related

Reference

python - Python のサンプルデータセットはありますか?