python - Pandas のサンプルデータセット

Question

R を使用する場合、次を使用して「練習用」データセットをロードすると便利です。

data(iris)

また

data(mtcars)

パンダに似たようなものはありますか？他の方法を使用してロードできることはわかっていますが、組み込みのものがあるかどうかは知りません。

score 151 · Accepted Answer

この回答を最初に書いたので、Python でサンプルデータセットにアクセスするために現在利用できる多くの方法で更新しました。個人的には、すでに使用しているパッケージ (通常は seaborn または pandas) に固執する傾向があります。オフラインアクセスが必要な場合は、Quilt を使用してデータセットをインストールすることが唯一の選択肢のようです。

シーボーン

華麗なプロットパッケージseabornには、いくつかの組み込みのサンプルデータセットがあります。

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

パンダ

をインポートしたくないが、そのサンプルデータセットseabornにアクセスしたい場合は、seaborn サンプルデータに対して @andrewwowens のアプローチを使用できます。

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

カテゴリ列を含むサンプルデータセットでは、列の型が変更されsns.load_dataset()ているため、URL から直接取得すると、結果が同じにならない可能性があることに注意してください。アイリスとヒントのサンプルデータセットは、こちらの pandas github リポジトリでも入手できます。

R サンプルデータセット

どのデータセットも経由で読み取ることができるため、この R データセットリポジトリpd.read_csv()から URL をコピーすることで、すべての R のサンプルデータセットにアクセスできます。

R サンプルデータセットを読み込むその他の方法には、次のものがあります。 statsmodel

import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data

とPyDataset

from pydataset import data

iris = data('iris')

scikit 学習

scikit-learnpandas データフレームではなく、numpy 配列としてサンプルデータを返します。

from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

キルト

Quiltは、データセット管理を容易にするために作成されたデータセットマネージャーです。uciml サンプルリポジトリからのいくつかなど、多くの一般的なサンプルデータセットが含まれています。クイックスタートページには、アイリスデータセットをインストールしてインポートする方法が示されています。

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

データセットをインストールすると、ローカルでアクセスできるようになるため、オフラインでデータを操作する場合は、これが最適なオプションです。

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()

   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

Quilt はデータセットのバージョン管理もサポートし、各データセットの簡単な説明を含めます。

score 15 · Accepted Answer

rpy2モジュールはこれのために作られています：

from rpy2.robjects import r, pandas2ri
pandas2ri.activate()

r['iris'].head()

収量

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

pandas 0.19 までは、pandas 独自のrpyインターフェースを使用できました。

import pandas.rpy.common as rcom
iris = rcom.load_data('iris')
print(iris.head())

収量

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

rpy2オブジェクトを Python オブジェクトに変換Rする方法も提供します。

import pandas as pd
import rpy2.robjects as ro
import rpy2.robjects.conversion as conversion
from rpy2.robjects import pandas2ri
pandas2ri.activate()

R = ro.r

df = conversion.ri2py(R['mtcars'])
print(df.head())

収量

    mpg  cyl  disp   hp  drat     wt   qsec  vs  am  gear  carb
0  21.0    6   160  110  3.90  2.620  16.46   0   1     4     4
1  21.0    6   160  110  3.90  2.875  17.02   0   1     4     4
2  22.8    4   108   93  3.85  2.320  18.61   1   1     4     1
3  21.4    6   258  110  3.08  3.215  19.44   1   0     3     1
4  18.7    8   360  175  3.15  3.440  17.02   0   0     3     2

score 13 · Accepted Answer

公開されている .csv ファイルは、その URL を使用して非常に迅速に pandas に読み込むことができます。これは、UCI アーカイブから最初に取得したアイリスデータセットを使用した例です。

import pandas as pd

file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()

ここでの出力は、指定された URL からロードした .csv ファイルヘッダーです。

>>> df.head()
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

覚えやすい短縮 URL はhttps://j.mp/iriscsv. この短い URL は、コピーして貼り付けた場合ではなく、入力した場合にのみ機能します。

python - Pandas のサンプル データセット

4 に答える 4

シーボーン

パンダ

R サンプル データセット

scikit 学習

キルト

Related

Reference

python - Pandas のサンプルデータセット

R サンプルデータセット