迅速なテスト、デバッグ、移植可能な例の作成、およびベンチマークのために、R には多数のデータ セット (Base Rdatasets
パッケージ内) が用意されています。R プロンプトのコマンドlibrary(help="datasets")
は、約 100 の履歴データセットを記述し、それぞれに説明とメタデータが関連付けられています。
Pythonにこのようなものはありますか?
package を使用rpy2
して、Python からすべての R データセットにアクセスできます。
インターフェイスをセットアップします。
>>> from rpy2.robjects import r, pandas2ri
>>> def data(name):
... return pandas2ri.ri2py(r[name])
次に、使用可能なデータセットの任意のデータセットの名前で呼び出しdata()
ます (のようにR
)
>>> df = data('iris')
>>> df.describe()
Sepal.Length Sepal.Width Petal.Length Petal.Width
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.057333 3.758000 1.199333
std 0.828066 0.435866 1.765298 0.762238
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000
使用可能なデータセットのリストとそれぞれの説明を表示するには:
>>> print(r.data())
注: rpy2 は変数R
を設定してインストールする必要があり、同様にインストールする必要があります。R_HOME
pandas
PyDatasetを作成しました。これは、Python からのデータセットのロードを のように簡単にするための単純なモジュールです(インストールR
は不要で、 のみです)。R
pandas
使用を開始するには、モジュールをインストールします。
$ pip install pydataset
次に、必要なデータセットをロードするだけです (現在、約 757 個のデータセットが利用可能です)。
from pydataset import data
titanic = data('titanic')
Scikit-Learnライブラリから利用可能なデータセットもあります。
from sklearn import datasets
このパッケージには複数のデータセットがあります。おもちゃのデータセットの一部は次のとおりです。
load_boston() Load and return the boston house-prices dataset (regression).
load_iris() Load and return the iris dataset (classification).
load_diabetes() Load and return the diabetes dataset (regression).
load_digits([n_class]) Load and return the digits dataset (classification).
load_linnerud() Load and return the linnerud dataset (multivariate regression).
Joranのコメントに従って、独自のパッケージを提供するstatsmodelsモジュールを見つけました。オンライン ドキュメントには、R で利用可能なデータセットをインポートする方法の例が示されていますdatasets
。
import statsmodels.api as sm
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
print duncan_prestige.__doc__
MyMVPA は、データベースへの簡単なアクセスを提供する別のモジュールです。以下のリンクで確認できます。
>>> from mvpa2.tutorial_suite import *
>>> data = [[ 1, 1, -1],
... [ 2, 0, 0],
... [ 3, 1, 1],
... [ 4, 0, -1]]
>>> ds = Dataset(data)
>>> ds.shape
(4, 3)
>>> len(ds)
4
リンクからの例
具体的には、@tmthydvnprt の例を使用します。
from sklearn import datasets
iris = datasets.load_iris()
実際のデータセットは、 を実行して呼び出すことができますiris.data
。
http://scikit-learn.org/stable/datasets/
Python 3.5 の実行