問題タブ [hdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Hive メタストア 3.1.0 を使用する Apache Spark 2.3.1
HDP クラスターを 3.1.1.3.0.1.0-187 にアップグレードしたところ、次のことがわかりました。
- Hive に新しいメタストアの場所がある
- Spark が Hive データベースを認識できない
実際、次のことがわかります。
何が起こったのか、これを解決する方法を理解するのを手伝ってもらえますか?
アップデート:
構成:
(spark.sql.warehouse.dir,/warehouse/tablespace/external/hive/) (spark.admin.acls,) (spark.yarn.dist.files,file:///opt/folder/config.yml,file :///opt/jdk1.8.0_172/jre/lib/security/cacerts) (spark.history.kerberos.keytab、/etc/security/keytabs/spark.service.keytab) (spark.io.compression.lz4. blockSize,128kb) (spark.executor.extraJavaOptions,-Djavax.net.ssl.trustStore=cacerts) (spark.history.fs.logDirectory,hdfs:///spark2-history/) (spark.io.encryption.keygen.アルゴリズム,HmacSHA1) (spark.sql.autoBroadcastJoinThreshold,26214400) (spark.eventLog.enabled,true) (spark.shuffle.service.enabled,true) (spark.driver.extraLibraryPath,/usr/hdp/current/hadoop-client) /lib/native:/usr/hdp/current/hadoop-client/lib/native/Linux-amd64-64) (spark.ssl.keyStore,/etc/security/serverKeys/server-keystore.jks) (spark.yarn) .queue,default) (spark.jars,ファイル:/opt/folder/component-assembly-0.1.0-SNAPSHOT.jar) (spark.ssl.enabled,true) (spark.sql.orc.filterPushdown,true) (spark.shuffle.unsafe.file.output.buffer, 5m) (spark.yarn.historyServer.address,master2.env.project:18481) (spark.ssl.trustStore,/etc/security/clientKeys/all.jks) (spark.app.name,com.company.env. component.MyClass) (spark.sql.hive.metastore.jars,/usr/hdp/current/spark2-client/standalone-metastore/*) (spark.io.encryption.keySizeBits,128) (spark.driver.memory, 2g) (spark.executor.instances,10) (spark.history.kerberos.principal,spark/edge.env.project@ENV.PROJECT) (spark.unsafe.sorter.spill.reader.buffer.size,1m) ( spark.ssl.keyPassword,*********(編集済み)) (spark.ssl.keyStorePassword,*********(編集済み)) (spark.history.fs.cleaner.enabled, true) (spark.shuffle.io.serverThreads,128) (spark.sql.hive.convertMetastoreOrc,true) (spark.submit.deployMode,client) (spark.sql.orc.char.enabled,true) (spark.master,yarn) (spark.authenticate.enableSaslEncryption,true) (spark.history.fs.cleaner.interval) ,7d) (spark.authenticate,true) (spark.history.fs.cleaner.maxAge,90d) (spark.history.ui.acls.enable,true) (spark.acls.enable,true) (spark.history.プロバイダー、org.apache.spark.deploy.history.FsHistoryProvider) (spark.executor.extraLibraryPath、/usr/hdp/current/hadoop-client/lib/native:/usr/hdp/current/hadoop-client/lib/native /Linux-amd64-64) (spark.executor.memory,2g) (spark.io.encryption.enabled,true) (spark.shuffle.file.buffer,1m) (spark.eventLog.dir,hdfs:/// spark2-history/) (spark.ssl.protocol,TLS) (spark.dynamicAllocation.enabled,true) (spark.executor.cores,3) (spark.history.ui.port,18081) (spark.sql.statistics. fallBackToHdfs,true) (spark.repl.local.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6.jar) (spark.ssl.trustStorePassword,************(編集済み) )) (spark.history.ui.admin.acls,) (spark.history.kerberos.enabled,true) (spark.shuffle.io.backLog,8192) (spark.sql.orc.impl,native) (spark. ssl.enabledAlgorithms、TLS_RSA_WITH_AES_128_CBC_SHA、TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled、true) (spark.yarn.dist.jars、file:///opt/folder/postgresql-42.2.2.jar、file:/// opt/folder/ojdbc6.jar) (spark.sql.hive.metastore.version,3.0)TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled,true) (spark.yarn.dist.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6. jar) (spark.sql.hive.metastore.version,3.0)TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled,true) (spark.yarn.dist.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6. jar) (spark.sql.hive.metastore.version,3.0)
そして hive-site.xml から:
コードは次のようになります。
スパーク送信:
apache-spark - YARN で CPU スケジューリングを有効にすると、spark での並列処理が本当に改善されますか?
キャパシティ スケジューラを使用する YARN は、ユーザー リクエストにリソースを割り当てるときにメモリのみを考慮に入れます-num-executors 1 --executor-cores 3"の場合、yarn は4GB のメモリと 1 つの vcpuを持つエグゼキューターを割り当てますが、タスクを実行しているときは、3 つのタスクを並列に実行します。
一度に 3 つのセットとしてすべてのタスクを実行するために、その 1 つのコアだけを使用していますか?
CPU スケジューリングと CGroups (HDP クラスター内) を有効にすると、糸は 3 つの vcpu コアを割り当て、その 3 つのタスクのセットは各 CPU で実行されますか? 処理時間は本当に改善されますか?
今のところ、ノード マネージャーの起動時に次のエラーが発生したため、クラスター (HDP 2.6.5 centos 7.5) で CPU スケジューリングを有効にできませんでした。 /cpu,cpuacct"
hive - レンジャーの権限 | パーティション ディレクトリに基づくハイブ テーブル アクセス
HDP の Ranger Authorization サービスによって実装される次のユースケースに関するヘルプを探していました。
HDFS からロードされた 2 つのパーティションの下にあるハイブ テーブル'customer'があります。
/data/mydatabase/顧客/partition1/
/data/mydatabase/customer/SenstivePartition2/
user1 と user2 の 2 人のユーザーがいて、次のような方法でポリシーを定義したいと考えています。
user1 --> アクセスできる必要があります --> partition1
user2 --> partition1 と SenstivePartition2 の両方にアクセスできる必要があります。
2 番目のパーティションは機密性が高いため、テーブル レベルのポリシーを定義したくありません。そうしないと、両方のユーザーがすべてのアクセス権を取得します。
ありがとうシャシ
ambari - Apache Ambari - インストール ウィザードの Web UI が機能しない
Ubuntu の Apache Ambari 2.7.3 とそのインストール ウィザードに問題があります。[クラスター名] タブの後、Web UI は次のステップをブロックしますが、どこに問題があるのかわかりません。Web 開発者コンソールには、いくつかのエラーがあります。
XML 解釈のエラー: ルート要素が見つかりません アドレス: http://192.168.1.129:8080/api/v1/persist/CLUSTER_CURRENT_STATUS?_=1545044000929行番号 1、列 1: CLUSTER_CURRENT_STATUS:1:1
オリジン マッピングのエラー: ステータス 404 でリクエストが失敗しました URL リソース: http://192.168.1.129:8080/stylesheets/vendor.css URL オリジン マッピング: bootstrap.css.map