問題タブ [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - start-dfs.shを使用してデーモンを起動できません
clouderaのcdh4-0.0ディストリビューションを使用しています。以下のコマンドを使用してデーモンを起動することはできません。
solr - Hadoop に保存されたドキュメントの検索 - どのツールを使用するか?
迷っている: Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...
1 つについて読むと、多くの場合、他のツールのそれぞれが言及されることを確信できます。
すべてのツールについて説明してくれるとは思っていません。私の特定のシナリオでこのセットを絞り込むのを手伝っていただければ、それは素晴らしいことです. これまでのところ、上記のどれが適合するかはわかりません。(いつものように) やるべきことを行う方法は複数あるようです。
シナリオは次のとおりです: 500GB - Hadoop に保存された最大 20 TB のドキュメント。複数の形式のテキスト ドキュメント: 電子メール、doc、pdf、odt。SQL データベースに保存されているドキュメントに関するメタデータ (送信者、受信者、日付、部門など) ドキュメントの主なソースは ExchangeServer (電子メールと添付ファイル) ですが、それだけではありません。検索について: ユーザーは、これらのドキュメントに対して複雑な全文検索を実行できる必要があります。基本的に、検索設定パネル (webapp ではなく Java デスクトップ アプリケーション) が表示されます - 日付範囲、ドキュメント タイプ、送信者/受信者、キーワードなどを設定します - 検索を開始し、ドキュメントの結果リストを取得します(および各ドキュメント情報について、検索結果に含まれる理由、つまり、ドキュメントで見つかったキーワード)。
考慮すべきツールとそうでないツールは? ポイントは、最小限の必要な「グルー」コードのみを使用して、このようなソリューションを開発することです。私は SQLdbs に精通していますが、Apache および関連するテクノロジにはかなり慣れていません。
基本的なワークフローは次のようになります: ExchangeServer/その他のソース -> doc/pdf/... からの変換 -> 重複排除 -> Hadopp + SQL (メタデータ) -> インデックスの構築/更新 <- ドキュメントを検索 (そして迅速に実行) ) -> 検索結果を表示
ありがとうございました!
java - Amazon(EMR)で使用されているHadoopのバージョンはどれですか?
Hadoopジョブを作成し、EC2MapReduceで実行したいと思います。また、EC2にアップロードする前にローカルでジョブを実行したいと思います。
ローカルで使用する必要があるHadoopのバージョン/タイプはどれですか?Cloudera VMを使用できますか?Amazonが使用しているHadoopのバージョンはどれですか?
hadoop - HBase: PerformanceEvaluation 実行時の PriviledgedActionException
Hadoop クラスターに HBase (バージョン 0.90.6-cdh3u4) をインストールしました。性能をテストしたい。しかし、私は走った
HMaster が実行されているマシンから、パフォーマンス評価が Map-Reduce ジョブを Hadoop に送信します。しかし、ジョブは次のメッセージで失敗しました:
2012-07-26 12:45:17,733 エラー org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:root (auth:SIMPLE) 原因:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 失敗した 22193 アクション: サーバー問題: test-8:60020, 2012-07-26 12:45:17,734 警告 org.apache.hadoop.mapred.Child: 子 org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException の実行中にエラーが発生しました: 22193 アクションに失敗しました: サーバー問題: test-8:60020、org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatch(HConnectionManager.java:1485) で、org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.processBatchOfPuts(HConnectionManager. java:1499) org.apache.hadoop.hbase.client.HTable.flushCommits(HTable.java:859) org.apache.hadoop.hbase.PerformanceEvaluation$Test.testTakedown(PerformanceEvaluation.java:754) at org.apache.hadoop.hbase.PerformanceEvaluation$Test.test(PerformanceEvaluation.java:771) at org.apache.hadoop.hbase.PerformanceEvaluation.runOneClient(PerformanceEvaluation.java: 1098) org.apache.hadoop.hbase.PerformanceEvaluation$EvaluationMapTask.map(PerformanceEvaluation.java:447) で org.apache.hadoop.hbase.PerformanceEvaluation$EvaluationMapTask.map(PerformanceEvaluation.java:400) で org.apache.hadoop org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:647) の .mapreduce.Mapper.run(Mapper.java:144) org.apache.hadoop.mapred.MapTask.run(MapTask.java:323) の) javax.security.auth.Subject.doAs(Subject.java:396) で org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1177) で org.apache.hadoop.mapred.Child.main(Child.java:264) 2012-07-26 12:45 :17,740 INFO org.apache.hadoop.mapred.Task: タスクのクリーンアップを実行しています
次に、他の map-reduce ジョブをいくつか試しましたが、すべて正常に終了しました。なので、Hadoop自体はうまくいっていると思います。
また、Hbase Shell での操作もOKです。テーブルを作成し、データを配置できます... この例外は、PerformanceEvaluation を実行している場合にのみ発生します。
誰でもそれを修正する方法を知っていますか?
hadoop - Mac を Hadoop/HDFS クラスターに接続する方法
クラスターで実行するための CDH があり、マシンに ssh アクセスできます。Mac をクラスターに接続する必要があるため、 hadoop fs -ls を実行すると、クラスターの内容が表示されるはずです。クラスターの構成を指すように HADOOP_CONF を構成しました。クラスターで CDH4 を実行しています。ここに何か足りないものがありますか? 接続できますか?
必要な ssh キーの設定はありますか?
hadoop - SQL サーバーから sqoop を介してハイブにテーブルをインポートできませんでした
コマンドを渡すと:
$sqoop create-hive-table --connect 'jdbc:sqlserver://10.100.0.18:1433;username=cloud;password=cloud123;database=hadoop' --table cluster
いくつかのエラーと警告が表示され、最後に「データベース '/var/lib/hive/metastore/metastore_db' を起動できませんでした。詳細については次の例外を参照してください [再びインポート エラーのリストが表示されます]」と表示されます。
最後に、ハイブが satus 9 で終了したと表示されます
ここで何が問題なのですか?私はスクープとハイブが初めてです。誰か助けてください。
hadoop - hadoopデーモンが起動しない
LinuxクラスターにHadoopをインストールしました。コマンド$bin/ start-all.shでサーバーを起動しようとすると、次のエラーが発生します。
conf /hadoop-env.shのログディレクトリパラメーターを/tmpディレクトリに構成し、core-site.xmlの「hadoop.tmp.dir」を/tmp/ディレクトリに構成しました。/ var / logディレクトリにアクセスできませんが、Hadoopデーモンが/ var / logディレクトリに書き込もうとして、失敗します。
なぜこれが起こっているのだろうか?
hadoop - 特定のバージョンで Hadoop を起動する方法
hadoop-2.0.0-cdh4.0.0 を使用しており、 を使用して namenode をhadoop namenode
開始しています。hadoop プロセスを 0.20 モードまたは 0.23 モードで開始するにはどうすればよいですか?
hadoop - Apache HBase と Cloudera HBase は互換性がありますか?
職場では、次のことを試みています。
- Amazon 経由で Elastic MapReduce ジョブを実行すると、Hadoop がバージョン 0.20.205 でフリーズします。
- EC2 で実行されている HBase、具体的には Cloudera の 0.92.1-cdh4.0.1 に出力を書き込みます。
これまでに発見したことは、Hadoop ジョブ (maven 経由でパッケージ化) で Apache HBase 0.92.1 を使用すると、WordCount テストが機能するように見えることです。これが偶然に機能していて、使用が成熟するにつれて爆発する可能性があるのではないかと心配しています。
ただし、Hadoop ジョブで HBase 0.92.1-cdh4.0.1 をパッケージ化すると、次のようになりますClassNotFoundException
。
https://emr-qa.eventbrite.com.s3.amazonaws.com/logs/j-RWJ75VR11SLB/steps/1/stderr
- Apache HBase jar は CDH Hbase サーバーとうまく連携しますか?
- このようにバージョンとパッケージを混在させるのは恐ろしい考えですか?
java - WordCount.javaをCloudera4でコンパイルするにはどうすればよいですか?
Cloudera 4のLinux(CentOS)インストールで単純なWordCount.java map-reduceの例をコンパイルしようとしています。hadoopクラスのいずれかを参照するとコンパイラエラーが発生し続けますが、 / usr / lib / hadoopの下にある数百は、コンパイルするためにクラスパスに追加する必要があります。どんな助けでも大歓迎です!私が最も欲しいのは、単語数のJavaファイル(私が見つけたものが何らかの理由で悪い場合に備えて)と、それをコンパイルして実行するための関連するコマンドです。
私はEclipseではなくjavacだけを使用してこれを実行しようとしています。いずれにせよ、私の主な問題は、Cloudera 4インストールのHadoopライブラリが正確に何であるかということです。これは、古典的なWordCountの例をコンパイルするために含める必要があります。基本的に、Java MapReduce APIクラス(Mapper、Reducerなど)をクラスパスに配置する必要があります。