問題タブ [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1235 参照

python - 2 つのテキスト ファイルをすばやく比較して一意の行を取得する方法は?

次の形式の一意の文字列を含む 2 つのテキスト ファイル (*.txt) があります。

最初のファイルには5000 万行 (4.3 GB) が含まれ、2 番目のファイルには100 万行 (112 MB) が含まれています。1 行には 40 文字、delimiter :、およびさらに 45 文字が含まれます。

タスク: 両方のファイルの一意の値を取得します。つまり、2 番目のファイルにあり、最初のファイルにはない行を含むcsv または txtファイルが必要です。

私はvaex ( Vaex ) を使用してこれを実行しようとしています:

その結果、一意の行値を持つresult.csvファイルを取得します。しかし、検証プロセスには非常に長い時間がかかります。さらに、使用可能なすべての RAM とすべてのプロセッサ リソースを使用します。このプロセスをどのように加速できますか? 私は何を間違っていますか?もっとうまくできることは何ですか?このチェックに他のライブラリ (pandas、dask) を使用する価値はありますか?


UPD 10.11.2020 これまでのところ、次のオプションよりも高速なものは見つかりませんでした。

UPD 11.11.2020: パフォーマンスを改善するためのヒントを提供してくれた @m9_psy に感謝します。本当に速いです!現在、最速の方法は次のとおりです。

このプロセスをさらに高速化する方法はありますか?

0 投票する
0 に答える
104 参照

python - vaex ValueError: クラス (AggSum_object) が見つかりませんでした。オブジェクトがサポートされていないようです

集計中に次のエラーが発生しました

dfv = vaex.from_csv(_path + 'sample.csv') _monetary = dfv.groupby('CusUnique',agg=vaex.agg.sum('Trn_AMT'))

戻ります。

「ValueError: クラス (AggSum_object) が見つかりませんでした。オブジェクトがサポートされていないようです」