例外:
例外 java.io.IOException:java.io.IOException: Somehow read -1 bytes trying to skip 6257 more bytes to seek to position 6708, size: 1290047 で失敗しました
cloud dataproc でそれを修正する方法について誰か考えがありますか?
例外:
例外 java.io.IOException:java.io.IOException: Somehow read -1 bytes trying to skip 6257 more bytes to seek to position 6708, size: 1290047 で失敗しました
cloud dataproc でそれを修正する方法について誰か考えがありますか?
おそらく、ORC ファイルの読み取りに特有のこの既知の問題に遭遇しているようです。GCS コネクタ バージョン 1.5.4 には修正が含まれており、今週 Dataproc で展開されます(10 月 14 日金曜日までに完全に展開される予定です)。
それまでの間、小さな初期化アクションを使用して、dataproc クラスタのコネクタ バージョンを自動的に更新できます。という名前のファイルを作成しますupdate-gcs-1.5.4.sh
。
#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/
そして、そのファイルを GCS のどこかにアップロードします。
gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh
次に、Dataproc クラスタを作成します。
gcloud dataproc clusters create \
--initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh