pandas - ローカルの Jupyter ノートブックから Google BigQuery データにアクセスする

Question

私はいくつかのノートブックを立ち上げ、DataLab に取り組んでいます。さまざまな理由から、マシン上のローカルの Jupyter ノートブックから同じデータにアクセスしたいと考えています。

この質問は、これまでのところうまくいかないいくつかのアプローチを提案しました。

具体的には Gcloud ライブラリ:

from gcloud import bigquery
client = bigquery.Client()

最後の行のスタックトレースを教えてください。

ContextualVersionConflict: (protobuf 2.6.1 (/usr/local/lib/python2.7/dist-packages), Requirement.parse('protobuf!=3.0.0.b2.post1,>=3.0.0b2'), set(['gcloud']))

Pandas ライブラリは有望なようです:

df=pd.io.gbq.read_gbq('SELECT CCS_Category_ICD9, Gender, Admit_Month FROM [xxxxxxxx-xxxxx:xxxx_100MB_newform.xxxxxx_100MB_newform]ORDER by CCS_Category_ICD9',
                 project_id='xxxxxxxx-xxxxx')

スタックトレースも表示されます。

IOError: [Errno 2] No such file or directory: '/usr/local/lib/python2.7/dist-packages/httplib2-0.9.1.dist-info/METADATA'

私のブラウザは現在プロジェクトに認証されていますが、おそらくパンダのアプローチに認証の問題がありますか? または依存関係がありませんか？

任意の提案やガイダンスをいただければ幸いです..

ローカルの Jupyter ノートブック内から BigQuery データソースにアクセスする最良の方法は何ですか?

score 8 · Accepted Answer

のエラーgbq.read()によると、httplib2 が正しくインストールされていないようです。pandas のインストールページには、Google BigQuery のサポートに必要なオプションの依存関係がいくつかあります (httplib2 はその 1 つです)。インストールを再インストール/修復するには、次を試してください。

pip install httplib2 --ignore-installed

Google BigQuery サポートのオプションの依存関係がインストールされると、次のコードが機能するはずです。

from pandas.io import gbq
df = gbq.read_gbq('SELECT * FROM MyDataset.MyTable', project_id='my-project-id')

score 1 · Accepted Answer

Datalab 固有の方法で GCP にアクセスしていた場合は、代わりにhttps://github.com/googledatalab/datalabを使用してみてください。これにより、Jupyter Notebook 内で Datalab と互換性のある機能が提供されます。

pandas - ローカルの Jupyter ノートブックから Google BigQuery データにアクセスする

4 に答える 4

Related

Reference