問題タブ [hadoop-plugins]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2117 参照

hadoop - Hadoop タスク スケジューラ: キャパシティ vs フェア シェアリングか何か?

バックグラウンド

私の雇用主は、リソース集約型の ETL とバックエンド処理ロジックを MySQL から Hadoop ( dfs & hive ) に徐々に移行しています。現時点では、すべてがやや小さく管理しやすい (10 ノードで 20 TB) ですが、段階的にクラスター サイズを増やす予定です。

現在、hadoop は本番環境での使用に移行しており、バッチ スケジューリングと、アドホックなユーザー ハイブ クエリ間でのクラスターの共有、1 時間ごとの M/R プロセスの大きな問題になりつつあり、最終的には hbase がある程度使用されると思います。懸念されるのは、ユーザーがナイーブなクエリを作成し、それが不当な時間 (たとえば 4 時間) にわたって実行される可能性があり、タスク キューが詰まり、インフラストラクチャの負荷が不安定になる可能性があることです。

質問

私の会社の別のセクションは既に Flume の未熟さによって焼き尽くされているので、私の質問は、2 つの既知のスケジューラー (Capacity と Fair) がどれくらい安定しているか、そしてスポンサー企業 (Yahoo と Facebook) での使用以外に他の場所で使用されているかということです。

編集:背景情報

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

0 投票する
4 に答える
7547 参照

python - Hadoop ストリーミングでの複数の mapreduce タスクのチェーン

私は 2 つの mapreduce ジョブがあるシナリオにいます。私は Python に慣れており、mapreduce スクリプトを作成するために Python を使用し、同じために Hadoop ストリーミングを使用する予定です。Hadoop ストリーミングが使用されている場合、次の形式の両方のジョブをチェーンするのに便利な方法はありますか?

Map1 -> Reduce1 -> Map2 -> Reduce2

Java でこれを実現する方法はたくさんありますが、Hadoop ストリーミングには何かが必要です。

0 投票する
4 に答える
4378 参照

lucene - 1つのJVMで複数のマップタスクを実行することは可能ですか?

Hadoopのマップタスク用に大容量のメモリ静的データ(RAM luceneインデックス)を共有したいですか?複数のmap/reduceタスクが同じJVMを共有する方法はありますか?

0 投票する
1 に答える
1345 参照

eclipse-plugin - Eclipse から Hadoop クラスターへのアクセス

Hadoop(0.20.2) インストール チュートリアルに従って、セットアップを行いました。Eclipse を使用して、クラスターで map reduce プログラムを実行できます。ここでの問題は、ローカル システムから Hadoop クラスターに接続する方法です。ローカル システムは Windows 7 で、Hadoop 用の Eclipse プラグインをインストールしました。Windows であるローカル システムから Hadoop に接続しようとしていました (ローカル システムと Hadoop システムは同じサブネットにあります)。Hadoop サーバーへの接続中に接続タイムアウト エラーが発生しました。

Hadoop の構成ファイルで、実際の IP アドレスを指定しました。どのステップを逃したかわかりませんか?

0 投票する
1 に答える
1060 参照

hadoop - Hadoopの基本:出力をどうすればよいですか?

(同様の質問が存在することは確かですが、探している答えはまだ見つかりません。)

私はHadoopHive(SQLに精通している開発者向け)を使用して、数テラバイトのデータを毎晩バッチ処理しています。数百の大規模なCSVファイルの入力から、4つまたは5つのかなり大きなCSVファイルを出力しています。明らかに、HiveはこれらをHDFSに保存します。もともと、これらの入力ファイルは巨大なSQLデータウェアハウスから抽出されました。

Hadoopは、その機能にとって非常に価値があります。しかし、出力を処理するための業界標準は何ですか?現在、シェルスクリプトを使用して、これらをローカルフォルダーにコピーし直し、別のデータウェアハウスにアップロードしています。

この質問:( HadoopとMySQLの統合)は、Hadoopエクスポートを非標準で再インポートする方法を呼び出します。BIツールを使用してデータを探索したり、結果をASP.NETアプリに統合したりするにはどうすればよいですか?倹約?Protobuf?Hive ODBC APIドライバー?もっと良い方法があるに違いない.....

私を啓発します。

0 投票する
1 に答える
4425 参照

hadoop - リモートモードで実行するようにハイブサーバーを構成するにはどうすればよいですか?

Hadoopクラスターにハイブパッケージを追加しました。ハイブCLIに入ると、リモートモードでハイブを実行できます。しかし、ハイブサーバーを通過するクエリはローカルモードで実行されますが、これは非常に低速です...ハイブに対して行った唯一の変更は、次のリンクに従ってderbyネットワークサーバーを設定することです:http ://wiki.apache.org/hadoop/HiveDerbyServerMode iまた、HADOOP_CONF_DIR、HADOOP_HOME、HIVE_CONF_DIR、HIVE_HOMEを私の環境にエクスポートしました...

誰かがこれを修正する方法を知っていますか?

0 投票する
4 に答える
1321 参照

hadoop - Hadoop for Business Intelligence の設計に関する考慮事項の評価と比較

データ ウェアハウジングとビジネス インテリジェンスのためのさまざまなテクノロジを検討していて、Hadoop という急進的なツールにたどり着きました。Hadoop は、BI の目的のために正確に構築されているようには見えませんが、この分野での可能性を秘めているという参考文献があります。( http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488 )。

私がインターネットから得た情報はほとんどありませんが、従来の BI ソリューションの分野で Hadoop が破壊的なテクノロジーになる可能性があることを私の直感は教えてくれます。このトピックに関する情報は本当に少ないので、Oracle Exadata や vertica などの従来のバックエンド BI インフラストラクチャと比較して、BI ツールとしての Hadoop の可能性に関するすべてのグルの考えをここに集めたいと思いました。はじめに、次の質問をしたいと思います -

  • 設計上の考慮事項- Hadoop を使用した BI ソリューションの設計は、従来のツールとどのように異なりますか? Hadoopでスキーマを作成できないと読んだので、違うはずです。また、Hadoop の ETL ツールを完全に排除できることが大きな利点になるとも読みました (これは本当ですか?) BI ソリューションを得るには、Hadoop + pig + mahout が必要ですか??

ありがとうございます。それでは、お元気で!

編集 - 複数の質問に分割します。私が最もインプだと思うものから始めます。

0 投票する
2 に答える
2110 参照

hadoop - HBase Key-Value圧縮?

私の質問に興味を持ってくれてありがとう。始める前に、私はHadoopとHBaseを初めて使用することをお知らせします。これまでのところ、Hadoopは非常に興味深いものであり、今後さらに貢献したいと思います。

私は主にHBaseのパフォーマンスの向上に興味があります。そのために、WriterHBaseのメソッドを変更/io/hfile/Hfile.javaして、高速のバッファーデータアセンブリを実行し、Hadoopに直接書き込んで、後でHBaseでロードできるようにしました。

今、私は帯域幅を節約できるようにキーと値のペアを圧縮する方法を考え出そうとしています。私はその方法を理解するために多くの調査を行いました。そして、HBaseには圧縮ライブラリが組み込まれていることに気づきました。

私は現在SequenceFile (1)を見ています; setCompressMapOutput (2)(非推奨); およびクラス圧縮(3)。また、ApacheのMapReduceに関するチュートリアルも見つけました。

誰かが「SequenceFile」とは何か、そしてそれらの圧縮ライブラリとアルゴリズムをどのように実装できるかを説明してもらえますか?これらの異なるクラスとドキュメントは私にとってとても混乱しています。

よろしくお願いします。

-

ハイパーリンク:

(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html

(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29

(3):www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html

0 投票する
1 に答える
506 参照

hadoop - タイプ Mapper はジェネリックではなく、hadoop Eclipse プラグインです

私はEclipseを使ってmapreduceプログラムを書いています。Hadoop ライブラリ (hadoop-0.13.0-core.jar) をインポートしました

Mapper class import org.apache.hadoop.mapred.Mapper; をインポートしました。これにはエラーはありませんが、私がこのプログラムを書いたときのソースはhttp://developer.yahoo.com/hadoop/tutorial/module3.htmlです

それは私にエラーを与えます The type Mapper is not generic; 引数でパラメータ化することはできません

0 投票する
0 に答える
95 参照

hadoop-plugins - hadoopでmapreduceの場所を設定するには?

私はApache Hadoopを初めて使用します。前提条件のソフトウェアをインストールし、すべてを構成し、Eclipse プラグインも実行しましたが、新しい Hadoop の場所をクリックしても機能しません。誰でも助けてくれます...