問題タブ [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Spark と Apache Arrow の違いは何ですか?
Apache Arrow と Apache Spark の違いは何ですか? Apache Arrow は Hadoop に取って代わりますか?
java - Apache アロー Java API ドキュメント
Apache Arrow API の有用なドキュメントまたは例を探しています。誰でも役に立つリソースを指摘できますか? いくつかのブログと Java のドキュメントしか見つけることができませんでした (あまり詳しくはありません)。
私が読んだところによると、これは高速分析用の標準的なメモリ内列型データベースです。データをアローメモリにロードして操作することはできますか?
pandas - Apache Arrow を使用して PySpark DataFrame を Pandas に変換する
PySpark
DataFrame ( pyspark.sql.DataFrame
) をデータフレームに変換したいと思いPandas
ます。非常に非効率な組み込みメソッドがあります(toPandas()
2017 年 2 月にこの問題に関する Wes McKinney の記事と、この jupyter ノートブックでの彼の計算をお読みください)。
その間、このような変換を高速化するためのいくつかの取り組みが行われました。例として、Josh の関数hereがあります。ただし、 +1M 行を から に転送しようとしているので、これは役に立ちませんでしpysaprk.DataFrame
たPandas
。この解決策はうまくいきませんでした。
幸いなことに、 2017 年 7 月 26 日のこの投稿に示されているように、作者のWes、Li、およびHoldenのおかげで、 の機能はintoPandas()
の実装のおかげで大幅に改善されました。そうは言っても、私は Spark 2.3 にアクセスできません (私は Spark 2.1 を使用しています)。Apache Arrow
Spark 2.3
したがって、私の質問は、機能を使用してデータフレームを2.1 よりも古いものに高速Apache Arrow
に変換する方法です。多くの人が の古いバージョンで立ち往生しており、これから恩恵を受けることができると思います。pyspark
Pandas
Spark
Spark
更新 1pyspark
: 最初にファイルに出力してから、強力な方法でファイルをCSV
読み取るように提案されました。私はそれを避ける方法を見つけることを本当に望んでいます!CSV
Pandas
read_csv
更新 2:toPandas()
メソッドの遅さの背後にある理由と考えられる問題については、このディスカッションout of memory
で詳しく説明します