問題タブ [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - なぜreduceが16%でスタックするのですか?
比較的小さなデータセットで実行しようとしているマップリデュースジョブがあります。私はreduceジョブが16%でスタックし続けるという問題に遭遇し続けます。私のタスクトラッカーのログは次のとおりです。
hadoop - ホスト名での Hadoop インストールの失敗
Hadoopシングルノードをインストールしようとしましたが、
私の構成でlocalhostと私のIPアドレスを使用しようとすると、私のhadoopはうまく動作しています。しかし、IPアドレスをホスト名に変更すると、エラーが発生しました.NameNodeとJobTrackerが実行できません。
私は何をすべきか ?
これは私の設定です
これは私の /etc/hosts です
localhost をホスト名 "cloudera_master" に変更しただけですが、失敗しました。/etc/hosts にホストを追加しようとしましたが、それでも失敗しました
お願い助けて、
hadoop - Hadoop バージョン 1.0.0 に最適なパブリック Hadoop AMI
適切なパブリック Hadoop AMI (1.0.0 または 1.0.1) を見つけようとしましたが、見つかりませんでした。デフォルトでPIGが含まれている場合は、さらに優れています。Cloudera Hadoop ディストリビューションを試す必要があるようですが、何を使用すればよいかわかりません。お知らせ下さい。
hadoop - 'ファイルを解決するには、hadoopで1'ではなく0ノードにしか複製できませんでしたか?
WebサイトをクロールしてHDFSにキャッシュする単純なHadoopジョブがあります。マッパーは、URLがHDFSにすでに存在するかどうかを確認し、存在する場合はそれを使用します。存在しない場合は、ページをダウンロードしてHDFSに保存します。
ページのダウンロード中にネットワークエラー(404など)が発生した場合、URLは完全にスキップされます(HDFSに書き込まれません)。小さなリスト〜1000のWebサイトを実行するときはいつでも、このエラーが発生し、疑似分散インストールでジョブが繰り返しクラッシュするようです。何が問題なのですか?
Hadoop0.20.2-cdh3u3を実行しています。
maven - Maven でビルドした後に Mahout /usr/lib リソース フォルダーをビルドする方法
私はこのようなことに慣れていないので、誰かが助けてくれることを願っています;
ソースコードから独自の Apache Mahout インストールを構築したいと考えています。私はMaven2.2.1を持っています。Mahout wiki の指示に従って、コード (Mahout-0.6-SNAPSHOT) をチェックアウトし、Maven で Mahout をビルドすることができました。少なくとも、チェックアウトした src コードを含むフォルダーのルートから「mvn install」を実行した後に発生したと考えられていました。テストが実行されましたが、しばらく時間がかかりました。したがって、これらすべての jar (間違いがなければアーティファクトと呼ばれます) が ~/.m2/repository の Maven リポジトリにあります。
私の最初の質問は次のとおりです。RedHat で RPM を実行するときに慣れているように、ここから「インストール済み」パッケージに移動するにはどうすればよいですか。つまり、/usr/lib/ の下に新しいフォルダーがあり、そこから /lib や /bin などのフォルダーが作成されます。
2 番目の質問は、依存関係の jar に関するものです。リポジトリで、Mahout が hadoop-core-0.20.204.0.jar でビルドされていることを確認できますが、Cloudera の別の hadoop-core jar を使用して Hadoop クラスターを実行しているため、これは必要な jar ではありません。適切な Hadoop-core jar を使用して Mahout を再度ビルドするにはどうすればよいですか? それとも、作成中の /lib フォルダー内の 1 つの hadoop-core jar を別の jar に変更するだけの問題でしょうか (私の最初の質問に回答した後)。
ありがとう
sockets - CentOS 上の Hadoop データノードでソケット接続を開く
デバッグ用に centos 6.2.64 マシンでサンプルの Hadoop ジョブを実行しています。
ジョブが完了した後も、データノードへの接続は残っているようです。
最終的に、しばらくするとデータノード ログにこのエラーが表示されます。
これにより、本番システムで問題が発生します。つまり、データノードで xciever が不足します。この動作は、私の Ubuntu 開発ボックスでは発生しないようです。この目的のために、cloudera hadoop-0.20.2-cdh3u3 を使用しています。
この問題を解決するための指針はありますか?
configuration - リモート クラスターに対して HBase シェルを実行する方法
ワークステーションで HBase を疑似分散モードで実行しています。また、HBase をクラスターで実行しています。HBase シェルを使用して、ワークステーションからクラスターで実行されている HBase インスタンスにアクセスしたいと考えています。クラスタ マシンの 1 つにログインせずにこれを実行したいと考えています。
Hadoop では、-conf パラメーターを指定し、代替バージョンの hadoop-site.xml を提供することで、リモート クラスターでジョブを実行できます。HBase シェルに相当するものはありますか?
ワークステーションとクラスター マシンで cloudera cdh3u3 を実行しています。
hadoop - Clouderaを使用したMap-Reduceのシミュレーション
clouderaを使用して、単一のマシン(もちろん、多くのVMを使用)でHadoopジョブをシミュレートしたいと思います。2つの質問があります1)clouderaでHDFSのレプリケーションポリシーを変更できますか?2)各VMのCPU使用率を確認できますか?
hadoop - hadoop Map-Reduceで、マップタスクの終了またはfilesplitの終了を知る方法
hadoopのマップタスクは、入力ファイルの64/128MB分割で機能します。入力分割の1行目から最後まで処理を開始します。マップタスクが入力分割の処理をいつ完了したかを知る方法を見つける必要があります。つまり、シャッフルと並べ替えが始まる前です。私の質問に答えることができるhadoopライブラリのメソッドはありますか?
hadoop - マッパーは実行中のマッパーの数を知ることができますか?
Hadoop Map-Reduce フレームワークでは、アプリケーションの実行中に、プログラムで実行されているワーカーの数を知ることができますか? ワーカー数はファイル分割数と同じなので、つまりファイル分割数を動的に知ることは可能ですか?