問題タブ [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - CDH 4.5 で動作しない map-reduce oozie プログラムの例
しばらく前から Mac で Hadoop (CDH 4.5) を使用しており、map reduce ジョブを定期的に実行しています。http://archive.cloudera.com/cdh4/cdh/4/oozie-3.3.2-cdh4.5.0/DG_QuickStart.htmlの指示に従って、最近 oozie (再び CDH4.5) をインストールし、 サンプルを実行しようとしました。提供されるプログラム。ただし、常に次のエラーで失敗します。ワークフローがまったく実行されていないようです。ジョブ情報のコンソール URL フィールドも空です。
誰かがこれについて助けてくれますか?
関連する Oozie ジョブ ログのスニペットは次のとおりです。
hadoop - Accumulo 1.5.1 - Cloudera CDH4.5 - TServer でポート 9999 を使用できない
Accumulo インスタンスが次のエラーで起動に失敗する - 助けていただければ幸いです
cloudera - Cloudera CDH5 のクラスター作成
次の構成のサーバー マシンがあります。1) デュアル クアッド コア Xeon 2) 24 GB メモリ 3) 500 GB Sata 4) 256 * 2 RAID 1
マシンが到着したばかりで、CDH5 をインストールしたいと考えています。サンドボックス/開発クラスターを作成したいと考えています。私はいくつかの専門家のアドバイスを探しています
私たちはこのプロセスにかなり慣れていません。どんな助けでも本当に役に立ちます。
ありがとう、アミット
java - Namenode が EPERM をスローしています: 起動時に操作が許可されていません
yarn.nodemanager.local-dirs フォルダのファイル権限はどうあるべきですか? これらのファイルのアクセス許可を台無しにして、解決できませんでした。現在、フォルダーのアクセス許可を 755 yarn:hadoop に設定しています。nodemanager を実行しようとすると、EPERM: Operation not allowed エラーが発生します。詳細 -
local-dirs フォルダーには、失敗した開始試行の後、次のフォルダーがあります - filecache、nmPrivate、3 usercache_DEL_timestamp。エラーの場所 (ResourceLocalizationService.java、233 行目) に基づいて、次の 3 つのアクションでこのエラーが発生する可能性が
あり
ます。
、local-dirs に 3 種類のファイルがあります。3 つの usercache_DEL_*、filecache、nmPrivate ファイルです。
c) ログ パスの作成 - ログ フォルダーをチェックして、yarn:hadoop のアクセス許可が 775 であることを確認しました。
何が問題になっている可能性がありますか? Cloudera を使用してクラスターを管理しています。
r - CDH5 (Hadoop の Cloudera ディストリビューション) に R スクリプトまたはサードパーティ ソフトウェアをインストールできますか?
CDH5 を使用する予定のローカル クラスターをセットアップします。これにより、Hadoop のすべての組み込みエコシステムをオンザフライで使用できますが、Hadoop ストリーミングとデータ分析作業のためにクラスターにも Rscript が必要です。CDH5 を使用して R スクリプトをインストールすることは可能でしょうか。ありがとう
cloudera-cdh - Hadoop マップ タスクが 100% でスタックする
マルチ ペタ バイト クラスターで map reduce ジョブを実行するために、hadoop 用の cloudera のディストリビューションを使用しています。一部のマップが 100% で動かなくなることがあります。100% と表示されますが、引き続き実行されます。かなりの遅延の後、最終的には成功しますが、100% 表示されるまでに数時間かかる場合もあるなど、かなりの時間がかかります。
hadoop - hdfs グループ権限が機能しない
私が使用していて、グループ権限の構成がLinuxファイルシステムのように機能しないことHadoop 2.2.0
がわかりましたhdfs
このディレクトリはユーザーdata
とグループに属しdata
ます。raw
次に、グループのメンバーである別のユーザーdata
がディレクトリを一覧表示しようとすると/user/data
、hdfs
次の例外が発生します。
理由はありますか?
sql - ハイブ (CDH5|CDH4) を使用して spagoBI スタジオでメタモデルを生成できません
spagoBI スタジオとハイブ (CDH5/CDH4) の間に JDBC 接続を作成している間、これは私のログです:-
関連するいくつかの質問ハイブメソッドはサポートされていません、「java.sql.SQLException: メソッドはサポートされていません」と言う
元のエラーは、PDI が適切に機能するために必要な多くの JDBC API メソッドを実装していない Cloudera の Hive ドライバーを使用したことが原因です。そのため、cdh4 フォルダーに独自のバージョンのハイブ ドライバーがあります (hive-0.7.0-pentaho-1.0.2 などと呼ばれます)。簡単に言えば、クラスターから PDI クライアントに JAR がコピーされないようにする必要があります。cdh4 フォルダーには、必要なすべての JAR の正しいバージョンが既に含まれています。
しかし、CDH5/CDH4 用の spagoBI ハイブ ドライバーが見つかりませんでした。ハイブに接続することはできますが、Studio でテーブルにアクセスすると上記のエラーが発生し、spagoBI サーバーのテーブルにアクセスできます。
java - Hadoop CDH5 でのガベージ コレクション期間
Cloudera Manager パーセルを通じてインストールされた、CDH5.0.2 を実行する 4 つのデータノード クラスターがあります。1,300 万人のユーザーの行を HBase にインポートするために、単純な Python スクリプトを作成し、hadoop ストリーミング jar を使用しました。10万行までは期待どおりに機能します。そして...そして、次々と、すべてのデータノードが同じメッセージでクラッシュします:
Web で見られるアドバイス ( [1]、[2]、[3]など) に従って問題を解決しようとしても、解決には至りません。Java ヒープ サイズで「遊んで」も無駄です。状況を「解決」した唯一のことは、リージョン サーバーのガベージ コレクション期間の監視期間を 5 秒から 50 秒に増やしたことです。間違いなく汚い回避策。
現在、GC 使用状況のモニターを作成する人員がいません。最終的にはそうなりますが、1,300 万行を HBase にインポートすると、すべてのリージョン サーバーが確実にクラッシュする可能性があるのではないかと考えていました。きれいな解決策はありますか?
編集:
データノードの JVM オプションは次のとおりです。
-XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:-CMSConcurrentMTEnabled -XX:CMSInitiatingOccupancyFraction=70 -XX:+CMSParallelRemarkEnabled
データノードは、CentOS 6.5 を実行する物理マシンで、それぞれ 32Gb RAM と 2GHz の 1Quadcore と 30Mb キャッシュを備えています。
以下は、実行する Python スクリプトの抜粋です。2 つのテーブルに入力します。1 つは一意のユーザー ID を行キーとして、1 つの列ファミリにはユーザー情報を、もう 1 つはアクセスしたいすべての情報を行キーとして格納します。