問題タブ [blaze]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dask - dask.bag 処理データのメモリ不足
wordcount 30GBのjsonファイルにダスクバッグを使用しようとしています。公式Webのチュートリアルに従って厳格です: http://dask.pydata.org/en/latest/examples/bag-word-count-hdfs.html
しかし、まだ動作しません。私のマシンは 32GB のメモリと 8 コアの CPU です。
以下の私のコードは、10GBのファイルを処理していても機能しませんでした.jupyterが折りたたまれたことを通知せずにエラーが数時間実行されています.UbuntuとWindowsの両方のシステムで試しましたが、同じ問題です. それで、dasbagがメモリ不足のデータを処理できるかどうか疑問に思いますか? それとも私のコードが間違っていますか?
pandas - Pythonで大きな列のテキスト+数値データを保存する方法は?
円柱状の DB を構築せずにディスクに保存するには、次の方法があります。
速度の点でどれが最も効率的か疑問に思っていますか? ありがとう
python - Python blaze にインデックスの使用を強制する
ブレイズを使用して次のようなものを書く必要があります。
インデックスを指定する必要があります。そうしないと、クエリの評価に非常に長い時間がかかります。方法はありますか?テーブルには複数のインデックスがあります。
python - シンプルなSQL HAVINGスタイルのクエリに対して無効なSQLを生成するブレイズ?
Blazeを使用してSQL HAVINGのような単純な操作を実行しようとしています。by 操作とフィルタリング操作をチェーンすると、Blaze は 2 つのコマンドを適切にチェーンしません。
このデータを sqlite で使用する:
これら 2 つの操作により、無効な SQL が生成されます
これが結果の SQL です。2 つの操作が正しく連結されていないことに注意してください。代わりに、COUNT 関数が不適切に使用されました。