google-cloud-datalab - csv を google dataLab から pandas データフレームにロードするにはどうすればよいですか?

Question

これが私が試したものです:(ipythonノートブック、python2.7を使用)

import gcp
import gcp.storage as storage
import gcp.bigquery as bq
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

sample_bucket_name = gcp.Context.default().project_id + '-datalab'
sample_bucket_path = 'gs://' + sample_bucket_name 
sample_bucket_object = sample_bucket_path + '/myFile.csv'
sample_bucket = storage.Bucket(sample_bucket_name)
df = bq.Query(sample_bucket_object).to_dataframe()

これは失敗します。
私が間違っていることを教えてください。

score 0 · Accepted Answer

また、Dask を使用してデータを抽出し、たとえば GCP で実行されている Jupyter Notebook に読み込むこともできます。

Dask がインストールされていることを確認します。

conda install dask #conda

pip install dask[complete] #pip

import dask.dataframe as dd #Import

dataframe = dd.read_csv('gs://bucket/datafile.csv') #Read CSV data

dataframe2 = dd.read_csv('gs://bucket/path/*.csv') #Read parquet data

データをロードするために必要なのはこれだけです。

Pandas 構文を使用してデータをフィルタリングおよび操作できるようになりました。

dataframe['z'] = dataframe.x + dataframe.y

dataframe_pd = dataframe.compute()

google-cloud-datalab - csv を google dataLab から pandas データ フレームにロードするにはどうすればよいですか?

3 に答える 3

Related

Reference

google-cloud-datalab - csv を google dataLab から pandas データフレームにロードするにはどうすればよいですか?