問題タブ [hfile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hbase - 古い Hfile の行キーへの参照が削除または無効化されるのはいつですか?
hbase は、(行キー RK1 の) レコードの更新を Hfile に書き込みます。ただし、古い Hfile の 1 つには、この行キー RK1 への参照が含まれます。この RK1 へのこの古い参照はいつ、どのように無効になりますか?
行キー RK1 のレコードを含む Hfile があるとします。次に、この RK1 が更新されます。これは、この更新が新しい HFile に書き込まれることを意味します。RK1 への参照を含む古い Hfile を無効にする必要があります。これは Hbase でいつどのように行われますか?
ありがとう。
hbase - Mapr-Db の一括読み込みがレデューサー側で失敗する
レデューサーの処理中に次のエラーでバルクロードが失敗しました。m7 テーブルを更新しようとして、M5 クラスターで mapreduce を実行しています。
hbase のバージョンは 0.98.12-mapr-1506 です。
Mapr-Db テーブルは一括読み込みが有効になっています。レデューサーはすべてのデータを処理し、バルクロード時に何らかの方法で失敗します。
助けてください。
hbase - hbase NameError: 初期化されていない定数 IS_MOB
テーブルを作成しようとすると、hbase-0.98.18-hadoop2 のユーザーです。
エラーがあります:
しかし、次の行を hbase-site.xml に追加しました。
Hfile バージョン 3 をサポートするため。ただし、問題はまだ存在します。どうすればこの問題を解決できますか?
hadoop - 大規模なデータセットに対して Spark ジョブを実行できない
S3 の Hive データから読み取り、HFiles を生成する Spark ジョブを作成しました。
このジョブは、1 つの ORC ファイル (約 190 MB) のみを読み取る場合は正常に機能しますが、S3 ディレクトリ全体 (約 400 個の ORC ファイル) を読み取るために使用すると、約 400*190 MB = 76 GB のデータになり、次のようにスローされ続けます。エラー/スタック トレース:
私のクラスターはそれを処理するのに十分な大きさです: (これはすでに検証されています)
40 個のノード、800 GB を超える使用可能なメモリ、320 個の仮想コアがあります。
そして、ここに私のJavaコードがあります:
メインプログラム:
私が試したこと:
Stackoverflowで最も近い投稿を見ました。それから私はこれを設定しまし
builder.config("spark.shuffle.blockTransferService", "nio");
たが、まだ運がありません。
どんな助けでも大歓迎です!