問題タブ [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop:オブジェクトの構成中にエラーが発生しました
Terasortベンチマークを実行しようとしていますが、次の例外が発生します。
TeraGenコマンドは正常に実行され、TeraSortの入力ファイルを作成しました。これが私の入力ディレクトリのリストです:
これがterasortを実行するための私のコマンドです:
入力ディレクトリにファイル_partition.lstが表示されますが、FileNotFoundExceptionが発生する理由がわかりません。
http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-で提供されているセットアップの詳細に従いました。 mrbench /
hadoop - Cloudera cdh3u2 の LZO
少し戸惑いながら、lzo on cloudera に関する cloudera のブログ投稿を読みました。一部のライセンス bs により、lzo 圧縮は標準の Hadoop の一部ではありません。しかし、cloudera がディストリビューションの一部にすることを妨げているのは何ですか? または、これは起こりましたか?
つまり、cloudera cdh3u2 で lzo 圧縮を行う方法を教えてください。
hadoop - Mac OS X Lion に Cloudera Hue をインストールするにはどうすればよいですか?
誰もこれを試しましたか?Google は完全な空白を発見し、これまでのところ骨の折れるプロセスでした (私は作成するのがかなり新しい、アリなど)。
多数の依存関係をダウンロードした後、'ln -s' のいくつかの率直に言って賢明ではない使用と大量の 'sudo' が発生しました...最終的に、乗り越えられないエラーに遭遇しました。
私は Mac OS X 10.7.2 (Lion) を使用しており、Hadoop CDH3 (hadoop-0.20.2-cdh3u2)、Hue 1.2.0 を実行しています。
どんな支援も大歓迎です - 事前に多くの感謝を。
hadoop - Hadoop で日々増加するデータを処理する方法
Hadoop で毎日増加するデータを処理する方法:
例えば:
初日、入力フォルダー (hadoop/demo など) に 100 万個のファイルがある場合があります。
同じフォルダで 2 日目には、既存の 100 万ファイル + 別の新しい 100 万ファイルから合計 200 万ファイルが増える可能性があります。
同様に 3 日 4 日... 続けます。
私の制約は -> 初日のファイルは次の日に処理されるべきではありません。
(つまり) 新しいファイルが追加されたときに、既に処理されたファイルを再度処理するべきではありません。具体的には、新しく追加されたファイルのみを処理し、古いファイルは無視する必要があります。
この問題を解決できる方法で私を助けてください。
それでも制約を理解していない場合は、制約について詳しく説明できるように、不明な点を教えてください!
python - Pythonでhbaseをインポートするにはどうすればよいですか?
Python で hbase をいじろうとしていて、cloudera リポジトリを使用して hadoop/hbase パッケージをインストールしています。シェルを使用してデータベースにアクセスして作業できるように見えますが、Python内では完全には機能していません。
hbase と通信するにはthriftが必要なので、ソースからダウンロードしてコンパイルしました.thriftをpythonにインポートできますがfrom hbase import Hbase
、モジュールが見つからないというエラーが発生します。
それを機能させるために必要なパッケージ/モジュールを誰か知っていますか? easy_install と yum (私は centos6 を使用しています) を調べてみましたが、うまくいきませんでした。debain を使用している人sudo aptiutde install python-hbase
が、そのコマンド/パッケージを持っていないということでインストールしたという記事を見つけました。
また、それが役立つ場合は、 clouderaからほとんどのベースをインストールし、http://yannramin.com/2008/07/19/using-facebook-thrift-with-python からのいくつかの指示 (インストールを必要としないもの) に従いました。-および-hbase/
ヘルプ/ヒント/提案は素晴らしいでしょう。
ありがとう!
maven - Maven - テストで異なる依存バージョン
私はMaven 2 に似た問題に苦しんでいます - テストとコンパイルで依存関係のバージョンが異なりますが、そこで指定された答えは機能しません。
私のプロジェクトでは、Hadoop の Cloudera ディストリビューションと、JUnit テスト用の「バニラ」バージョンに依存する必要があります。前者は *nix でのみ動作するためです。
アプリケーションを実行しようとすると、Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
. Maven または Eclipse から JUnit テストを実行すると、すべて正常に動作します。依存関係をコメントアウトするtest
と、アプリケーションは正常に実行されます。
依存関係のコメントを外すと依存compile
関係が無視されるのはなぜですか?test
mvn dependency:list
以下を示していますが、compile
スコープ付きバージョンはまったく表示されていません。
ubuntu - システムにAmazonEC2のような環境を設定するにはどうすればよいですか?
他の誰かがコーディングしたこのHadoopプロジェクトがあります(リンク)。私は情報源を持っています。これを自分のクラスター(基本的には3台のubuntuマシン)に実装したいと思います。ただし、言及プロジェクトはEC2プラットフォーム(Clouderaディストリビューションを使用)で機能します。
それで、そのようなプロジェクトを実行するためのソフトウェアをシステムに持たせるために、システムに何をインストールする必要がありますか?
Cloudera Manager、OracleJavaについて考えました。
connection - ClouderaCDH3リモート接続
箱から出してすぐに使えるClouderaCDH3をCentOS6.2にインストールしています。Cloudera Mananger(ポート7180)またはHue(ポート8088)にローカルで接続できますが、リモートで接続できません。これはOSがポートをロックダウンしていますか?お手伝いありがとう。
hadoop - HadoopNameNodeの障害を回復する
シナリオ1:
HDFS fsimageとeditlogは、NFSマウントを含む複数の場所に書き込まれます。
A)NameNodeデーモンのクラッシュ:解決策:Namenodeプロセスを再起動するだけです
B)ネームノードが実行されている場所でホストがダウンしています。
解決:
- 空のdfs.name.dirを使用して、別のホストでnamenodeを開始します
- dfs.name.dirを、メタデータのコピーがあるNFSマウントにポイントします。また
- fs.checkpoint.dirをセカンダリNameNodeからチェックポイントディレクトリにポイントした後、namenodeを起動するときに--importCheckpointオプションを使用します
- fs.default.nameをバックアップホスト名URIに変更し、スレーブファイル内のすべてのスレーブIPを使用してクラスターを再起動します。
注-最後のチェックポイントの後に行われた可能性のある編集を見逃す可能性があります。
シナリオ2:
HDFSfsimageは単一のディレクトリに書き込まれます。
A)NameNodeデーモンのクラッシュ:解決策:不明
B)ネームノードが実行されている場所でホストがダウンしています。
解決:
- (1)のディレクトリを指すdfs.name.dirを指す空のディレクトリを作成します
- fs.checkpoint.dirをセカンダリNameNodeからチェックポイントディレクトリにポイントした後、-importCheckpointを使用してNamenodeを開始します。
- fs.default.nameをバックアップホスト名URIに変更し、スレーブファイル内のすべてのスレーブIPを使用してクラスターを再起動します。
このようにして、最後のチェックポイントの後に編集されたファイルを再び見逃してしまいます。
これがクラスターを手動で回復する方法であるかどうかをお知らせください。
hadoop - CDH3Vmwareイメージの豚のソースコード
cloudera cdh3 vmwareイメージを使用して、プロンプトからpigスクリプトを実行しています。私はubuntuからのソースコードを見ようとしています。ソースコードにいくつかの演算子を追加したいと思っています。だから、私はPOPackage.java、POLocalrearrange.javaなどのようなファイルを見たいと思います。誰かがディレクトリ階層の画像上のソースディレクトリを指摘できますか?src / org / apache / pig/backendのようなフォルダに移動したいように。これは可能ですか、それともclouderaはすべてのファイルをjarとして使用しますか?私が検索を行ったが、ファイルが見つからなかったため。ありがとう