問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyarrow の使用時に libhdfs をロードできない
Pyarrow 経由で HDFS に接続しようとしていますが、libhdfs
ライブラリを読み込めないため機能しません。
libhdfs.so
と$HADOOP_HOME/lib/native
同様にあり$ARROW_LIBHDFS_DIR
ます。
私が得ているエラー:
python - PyArrowを使用してs3から寄木細工ファイルの定義されたリストを読み取る方法は?
s3 に保存されている Parquet ファイルから Pandas にデータを段階的に読み込む必要があります。これには PyArrow を使用しようとしていますが、うまくいきません。
Parquet ファイルのディレクトリ全体を Pandas に書き込むと、問題なく動作します。
しかし、単一の Parquet ファイルを読み込もうとすると、エラーが発生します。
エラーをスローします:
このエラーに関するヘルプをいただければ幸いです。
理想的には、s3 に追加されたすべての新しいデータ (前回このスクリプトを実行してから追加されたもの) を Pandas データフレームに追加する必要があるため、ファイル名のリストを ParquetDataset に渡すことを考えていました。これを達成するためのより良い方法はありますか?ありがとう
c++ - arrow::MemoryMappedFile のメモリに直接アクセスできますか?
開発者の方へ、私は arrow::MemoryMappedFile を使用しており、データのコピーを作成する代わりに、直接アクセスしたいと考えています。メモリ内のこのデータにアクセスする方法はありますか?
ありがとう、マーク