R を使用する場合、次を使用して「練習用」データセットをロードすると便利です。
data(iris)
また
data(mtcars)
パンダに似たようなものはありますか?他の方法を使用してロードできることはわかっていますが、組み込みのものがあるかどうかは知りません。
R を使用する場合、次を使用して「練習用」データセットをロードすると便利です。
data(iris)
また
data(mtcars)
パンダに似たようなものはありますか?他の方法を使用してロードできることはわかっていますが、組み込みのものがあるかどうかは知りません。
この回答を最初に書いたので、Python でサンプル データ セットにアクセスするために現在利用できる多くの方法で更新しました。個人的には、すでに使用しているパッケージ (通常は seaborn または pandas) に固執する傾向があります。オフライン アクセスが必要な場合は、Quilt を使用してデータ セットをインストールすることが唯一の選択肢のようです。
華麗なプロット パッケージseabornには、いくつかの組み込みのサンプル データ セットがあります。
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
をインポートしたくないが、そのサンプル データ セットseabornにアクセスしたい場合は、seaborn サンプル データに対して @andrewwowens のアプローチを使用できます。
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
カテゴリ列を含むサンプル データ セットでは、列の型が変更されsns.load_dataset()ているため、URL から直接取得すると、結果が同じにならない可能性があることに注意してください。アイリスとヒントのサンプル データ セットは、こちらの pandas github リポジトリでも入手できます。
どのデータセットも 経由で読み取ることができるため、この R データ セット リポジトリpd.read_csv()から URL をコピーすることで、すべての R のサンプル データ セットにアクセスできます。
R サンプル データ セットを読み込むその他の方法には、次のものがあります。
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
from pydataset import data
iris = data('iris')
scikit-learnpandas データ フレームではなく、numpy 配列としてサンプル データを返します。
from sklearn.datasets import load_iris
iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
Quiltは、データセット管理を容易にするために作成されたデータセット マネージャーです。uciml サンプル リポジトリからのいくつかなど、多くの一般的なサンプル データセットが含まれてい ます。クイック スタート ページには、アイリス データ セットをインストールしてインポートする方法が示されています。
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
データセットをインストールすると、ローカルでアクセスできるようになるため、オフラインでデータを操作する場合は、これが最適なオプションです。
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
Quilt はデータセットのバージョン管理もサポートし、各データセットの簡単な説明を含めます。
rpy2モジュールはこれのために作られています:
from rpy2.robjects import r, pandas2ri
pandas2ri.activate()
r['iris'].head()
収量
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
pandas 0.19 までは、pandas 独自のrpyインターフェースを使用できました。
import pandas.rpy.common as rcom
iris = rcom.load_data('iris')
print(iris.head())
収量
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
rpy2オブジェクトを Python オブジェクトに変換Rする方法も提供します。
import pandas as pd
import rpy2.robjects as ro
import rpy2.robjects.conversion as conversion
from rpy2.robjects import pandas2ri
pandas2ri.activate()
R = ro.r
df = conversion.ri2py(R['mtcars'])
print(df.head())
収量
mpg cyl disp hp drat wt qsec vs am gear carb
0 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
1 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
2 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
3 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
4 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
公開されている .csv ファイルは、その URL を使用して非常に迅速に pandas に読み込むことができます。これは、UCI アーカイブから最初に取得したアイリス データセットを使用した例です。
import pandas as pd
file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()
ここでの出力は、指定された URL からロードした .csv ファイル ヘッダーです。
>>> df.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
覚えやすい短縮 URL はhttps://j.mp/iriscsv. この短い URL は、コピーして貼り付けた場合ではなく、入力した場合にのみ機能します。