問題タブ [fastparquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
5016 参照

python - Pythonで一連の文字列を持つ列を持つParquetFileをpandas Dataframeに変換する

いくつかの列を持つ単純なファイル スキーマを持つ寄木細工のファイルがあります。以下のコードを使用してPythonに読み込みました

これは正常に実行されますが、以下のコードを使用して pandas に変換すると、次のエラーが発生します。

エラーは次のとおりです。

エラーの原因を見つけるためにdf=pf.to_pandas(columns=col_to_retrieve)、列を個別に追加して実行し、各セルの値として文字列のリスト(たとえば、( "a"、 "b"、 "c"))を持つ列の1つからエラーが発生することに気付きました列。

set(string) 型の列があることを知っているパンダに変換する方法を知っていますか?

0 投票する
1 に答える
2001 参照

python - 配列の列を含む Dask データフレームを寄木細工のファイルに書き込む方法

私は Dask データフレームを持っています。その 1 つの列には浮動小数点数の numpy 配列が含まれています。

これを寄木細工として書き出そうとすると、エラーが発生します。

これは、「vec」列の型が「object」であるため、寄木細工のシリアライザーがそれを文字列として書き込もうとするためだと思います。列が float の配列であることを Dask DataFrame またはシリアライザに伝える方法はありますか?

0 投票する
1 に答える
397 参照

python - pandas groupby からデータフレームを取得して寄木細工に書き込む

次の列を持つ csv データがあります。

country, region, year, month, price, volume

これを次のようなものに変換する必要があります。

country, region, datapoints

データポイントは次のいずれかで構成されます: (year, month, price, volume) タプル配列、または (より良い)

{ (year, month) : {price, volume} }

事実上、私はデータを時系列に再形成し、寄木細工として保存できるようにしようとしています。価値があるのは、fastparquet を使用してデータフレームを寄木細工のファイルに書き込むことです。

これは可能ですか?

0 投票する
3 に答える
22063 参照

python-3.x - 解凍 'SNAPPY' は fastparquet では使用できません

fastparquet を使用してファイルを開こうとしていますが、次のエラーが表示されます。

以下をインストールし、インタープリターを再起動しました。

すべてがスムーズにダウンロードされました。snappy が必要なのか python-snappy が必要なのかわからなかったので、一方を修正せず、もう一方を取得しましたが、まだ成功していません。私が見つけたすべての関連する問題は、snappy をダウンロードするときに修正されますが、snappy が 2 つあると、まだこのエラーが発生します! どんな助けでも大歓迎です。