“cloudera”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

16436 参照

java - Hadoop：オブジェクトの構成中にエラーが発生しました

Terasortベンチマークを実行しようとしていますが、次の例外が発生します。

TeraGenコマンドは正常に実行され、TeraSortの入力ファイルを作成しました。これが私の入力ディレクトリのリストです：

これがterasortを実行するための私のコマンドです：

入力ディレクトリにファイル_partition.lstが表示されますが、FileNotFoundExceptionが発生する理由がわかりません。

http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-で提供されているセットアップの詳細に従いました。 mrbench /

2012-01-24T00:06:31.237

0 投票する

2 に答える

1005 参照

hadoop - Cloudera cdh3u2 の LZO

少し戸惑いながら、lzo on cloudera に関する cloudera のブログ投稿を読みました。一部のライセンス bs により、lzo 圧縮は標準の Hadoop の一部ではありません。しかし、cloudera がディストリビューションの一部にすることを妨げているのは何ですか? または、これは起こりましたか？

つまり、cloudera cdh3u2 で lzo 圧縮を行う方法を教えてください。

hadoop cloudera

2012-01-26T14:09:47.137

0 投票する

2 に答える

3614 参照

hadoop - Mac OS X Lion に Cloudera Hue をインストールするにはどうすればよいですか?

誰もこれを試しましたか？Google は完全な空白を発見し、これまでのところ骨の折れるプロセスでした (私は作成するのがかなり新しい、アリなど)。

多数の依存関係をダウンロードした後、'ln -s' のいくつかの率直に言って賢明ではない使用と大量の 'sudo' が発生しました...最終的に、乗り越えられないエラーに遭遇しました。

私は Mac OS X 10.7.2 (Lion) を使用しており、Hadoop CDH3 (hadoop-0.20.2-cdh3u2)、Hue 1.2.0 を実行しています。

どんな支援も大歓迎です - 事前に多くの感謝を。

hadoop cloudera hue

2012-01-30T00:56:09.203

0 投票する

1 に答える

246 参照

hadoop - Hadoop で日々増加するデータを処理する方法

Hadoop で毎日増加するデータを処理する方法:

例えば：

初日、入力フォルダー (hadoop/demo など) に 100 万個のファイルがある場合があります。

同じフォルダで 2 日目には、既存の 100 万ファイル + 別の新しい 100 万ファイルから合計 200 万ファイルが増える可能性があります。

同様に 3 日 4 日... 続けます。

私の制約は -> 初日のファイルは次の日に処理されるべきではありません。

(つまり) 新しいファイルが追加されたときに、既に処理されたファイルを再度処理するべきではありません。具体的には、新しく追加されたファイルのみを処理し、古いファイルは無視する必要があります。

この問題を解決できる方法で私を助けてください。

それでも制約を理解していない場合は、制約について詳しく説明できるように、不明な点を教えてください!

hadoop bigdata cloudera hadoop-streaming hadoop-plugins

2012-02-10T08:51:44.137

0 投票する

3 に答える

6084 参照

python - Pythonでhbaseをインポートするにはどうすればよいですか?

Python で hbase をいじろうとしていて、cloudera リポジトリを使用して hadoop/hbase パッケージをインストールしています。シェルを使用してデータベースにアクセスして作業できるように見えますが、Python内では完全には機能していません。

hbase と通信するにはthriftが必要なので、ソースからダウンロードしてコンパイルしました.thriftをpythonにインポートできますがfrom hbase import Hbase、モジュールが見つからないというエラーが発生します。

それを機能させるために必要なパッケージ/モジュールを誰か知っていますか? easy_install と yum (私は centos6 を使用しています) を調べてみましたが、うまくいきませんでした。debain を使用している人sudo aptiutde install python-hbase が、そのコマンド/パッケージを持っていないということでインストールしたという記事を見つけました。

また、それが役立つ場合は、 clouderaからほとんどのベースをインストールし、http://yannramin.com/2008/07/19/using-facebook-thrift-with-python からのいくつかの指示 (インストールを必要としないもの) に従いました。-および-hbase/

ヘルプ/ヒント/提案は素晴らしいでしょう。

ありがとう！

python hbase cloudera

2012-02-14T17:51:56.760

0 投票する

2 に答える

4600 参照

maven - Maven - テストで異なる依存バージョン

私はMaven 2 に似た問題に苦しんでいます - テストとコンパイルで依存関係のバージョンが異なりますが、そこで指定された答えは機能しません。

私のプロジェクトでは、Hadoop の Cloudera ディストリビューションと、JUnit テスト用の「バニラ」バージョンに依存する必要があります。前者は *nix でのみ動作するためです。

アプリケーションを実行しようとすると、Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration. Maven または Eclipse から JUnit テストを実行すると、すべて正常に動作します。依存関係をコメントアウトするtestと、アプリケーションは正常に実行されます。

依存関係のコメントを外すと依存compile関係が無視されるのはなぜですか?test

mvn dependency:list以下を示していますが、compileスコープ付きバージョンはまったく表示されていません。

maven hadoop cloudera

2012-02-20T16:22:30.273

0 投票する

1 に答える

203 参照

ubuntu - システムにAmazonEC2のような環境を設定するにはどうすればよいですか？

他の誰かがコーディングしたこのHadoopプロジェクトがあります（リンク）。私は情報源を持っています。これを自分のクラスター（基本的には3台のubuntuマシン）に実装したいと思います。ただし、言及プロジェクトはEC2プラットフォーム（Clouderaディストリビューションを使用）で機能します。

それで、そのようなプロジェクトを実行するためのソフトウェアをシステムに持たせるために、システムに何をインストールする必要がありますか？

Cloudera Manager、OracleJavaについて考えました。

ubuntu hadoop amazon-ec2 cloud cloudera

2012-02-21T02:53:32.330

0 投票する

1 に答える

231 参照

connection - ClouderaCDH3リモート接続

箱から出してすぐに使えるClouderaCDH3をCentOS6.2にインストールしています。Cloudera Mananger（ポート7180）またはHue（ポート8088）にローカルで接続できますが、リモートで接続できません。これはOSがポートをロックダウンしていますか？お手伝いありがとう。

connection centos cloudera hue

2012-02-24T15:06:16.403

0 投票する

1 に答える

13425 参照

hadoop - HadoopNameNodeの障害を回復する

シナリオ1：

HDFS fsimageとeditlogは、NFSマウントを含む複数の場所に書き込まれます。

A）NameNodeデーモンのクラッシュ：解決策：Namenodeプロセスを再起動するだけです

B）ネームノードが実行されている場所でホストがダウンしています。

解決：

空のdfs.name.dirを使用して、別のホストでnamenodeを開始します
dfs.name.dirを、メタデータのコピーがあるNFSマウントにポイントします。また
fs.checkpoint.dirをセカンダリNameNodeからチェックポイントディレクトリにポイントした後、namenodeを起動するときに--importCheckpointオプションを使用します
fs.default.nameをバックアップホスト名URIに変更し、スレーブファイル内のすべてのスレーブIPを使用してクラスターを再起動します。

注-最後のチェックポイントの後に行われた可能性のある編集を見逃す可能性があります。

シナリオ2：

HDFSfsimageは単一のディレクトリに書き込まれます。

A）NameNodeデーモンのクラッシュ：解決策：不明

B）ネームノードが実行されている場所でホストがダウンしています。

解決：

（1）のディレクトリを指すdfs.name.dirを指す空のディレクトリを作成します
fs.checkpoint.dirをセカンダリNameNodeからチェックポイントディレクトリにポイントした後、-importCheckpointを使用してNamenodeを開始します。
fs.default.nameをバックアップホスト名URIに変更し、スレーブファイル内のすべてのスレーブIPを使用してクラスターを再起動します。

このようにして、最後のチェックポイントの後に編集されたファイルを再び見逃してしまいます。

これがクラスターを手動で回復する方法であるかどうかをお知らせください。

hadoop hdfs cloudera

2012-03-15T00:00:18.290

0 投票する

2 に答える

262 参照

hadoop - CDH3Vmwareイメージの豚のソースコード

cloudera cdh3 vmwareイメージを使用して、プロンプトからpigスクリプトを実行しています。私はubuntuからのソースコードを見ようとしています。ソースコードにいくつかの演算子を追加したいと思っています。だから、私はPOPackage.java、POLocalrearrange.javaなどのようなファイルを見たいと思います。誰かがディレクトリ階層の画像上のソースディレクトリを指摘できますか？src / org / apache / pig/backendのようなフォルダに移動したいように。これは可能ですか、それともclouderaはすべてのファイルをjarとして使用しますか？私が検索を行ったが、ファイルが見つからなかったため。ありがとう

hadoop apache-pig cloudera

2012-03-21T00:58:25.890

問題タブ [cloudera]

Reference