問題タブ [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
impala - impala スキャン (READ_LATEST モード) の不一致は、リーダーの変更中にのみ発生しますか?
impala を使用して大量のデータ (約 100G) を一度に転送しようとして、すぐにcount(1) を選択すると、間違った合計カウントが得られます。次に、同じSQLを再度実行すると、合計数は正しいです。
リーダーの変更以外に知りたいのですが、スキャンの不一致を引き起こす可能性のある他の内部操作はありますか? impala configure kudu_read_mode: READ_LATEST を kudu_read_mode: READ_AT_SNAPSHOT に変更した場合、impala が送信するタイムスタンプは何ですか? READ_AT_SNAPSHOT で問題を解決できる場合は?
impala 2.10.0 + kudu 1.5.0 を使用しています。
hadoop - リモート デプロイを使用した Hadoop Key-Value ストア
私のアプリケーションは、 https ://spark.apache.org/docs/latest/running-on-yarn.html のガイドによって、Kerberos キータブとプリンシパルを使用して、yarn-cluster モードで spark-submit を介してリモート PC から起動されます。このアプローチの利点は、任意のクラスターで独自のバージョンの Spark を使用できることです。
HADOOP_CONF_DIR/YARN_CONF_DIR 構成で bash スクリプトを実行するだけで、sftp/ssh を使用せずに Hadoop YARN クラスターに読み取り/書き込みでランダム アクセスする Ignite/Hazelcast/Accumulo/Kudu またはその他の NoSQL DB を自動的にデプロイすることは可能ですか?
apache-spark - KuduRDD からのフィルタリングは、Spark アプリケーションまたは Kudu サーバーでローカルに行われますか?
KuduRDD でフィルターを実行すると、最初に Spark ジョブが Kudu テーブルからすべてのデータを読み取り、Spark アプリケーション内でフィルター ジョブを実行します。それとも、Kudu サーバーでフィルター処理が行われ、Spark アプリケーションはフィルター処理されたデータのみを受け取りますか?