python - Python を使用して Google Cloud Storage に保存されている CSV ファイルを開いて処理する方法

Question

Google Cloud Storage クライアントライブラリを使用しています。

次のようなコードを使用して、(すでにバケットにアップロードされた) CSV ファイルを開いて処理しようとしています。

filename = '/<my_bucket/data.csv'
with gcs.open(filename, 'r') as gcs_file:
    csv_reader = csv.reader(gcs_file, delimiter=',', quotechar='"')

csv.reader (つまり、gcs_file) の最初の引数に応答して、「引数 1 は反復子でなければなりません」というエラーが表示されます。どうやら gcs_file は iterator .next メソッドをサポートしていないようです。

続行する方法についてのアイデアはありますか？gcs_file をラップしてイテレータを作成する必要がありますか、それとももっと簡単な方法がありますか?

score 3 · Accepted Answer

csv.reader用に設計された独自のラッパー/イテレータを用意したほうがよいと思います。gcs_file がIteratorプロトコルをサポートしていた場合、コンシューマーに常に対応するために next() が何を返す必要があるかは明確ではありません。

csvリーダーのドキュメントによると、

指定された csvfile 内の行を反復処理するリーダーオブジェクトを返します。csvfile は、反復子プロトコルをサポートし、next() メソッドが呼び出されるたびに文字列を返す任意のオブジェクトにすることができます — ファイルオブジェクトとリストオブジェクトの両方が適しています。csvfile がファイルオブジェクトの場合、違いが生じるプラットフォームでは 'b' フラグを指定して開く必要があります。

必ずしも行ではなく、基になるファイルから生のバイトのチャンクが必要です。次のようなラッパーを使用できます (テストされていません)。

class CsvIterator(object)
  def __init__(self, gcs_file, chunk_size):
     self.gcs_file = gcs_file
     self.chunk_size = chunk_size
  def __iter__(self):
     return self
  def next(self):
     result = self.gcs_file.read(size=self.chunk_size)
     if not result:
        raise StopIteration()
     return result

重要なのは、一度にチャンクを読み取ることです。これにより、大きなファイルがある場合に、メモリを大量に消費したり、urlfetch からタイムアウトが発生したりしなくなります。

またはさらに簡単です。組み込みのiterを使用するには:

csv.reader(iter(gcs_file.readline, ''))

score 1 · Accepted Answer

これを試して：

from StringIO import StringIO
filename = '/<my_bucket/data.csv'
with gcs.open(filename, 'r') as gcs_file:
    csv_reader = csv.reader(StringIO(gcs_file.read()), delimiter=',',
                            quotechar='"')

ただし、これは理想的ではありません。GCS ファイルで反復処理をサポートする機能リクエストを提出しました。

python - Python を使用して Google Cloud Storage に保存されている CSV ファイルを開いて処理する方法

2 に答える 2

Related

Reference