問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Windows サーバー上の Hadoop
Hadoop を使用して、既存の Windows 2003 サーバー (16 GB の RAM を搭載した約 10 台のクアッド コア マシン) で大きなテキスト ファイルを処理することを考えています。
質問は次のとおりです。
Windows で Hadoop クラスターを構成する方法に関する適切なチュートリアルはありますか?
要件は何ですか?Java + cygwin + sshd ? 他に何か?
HDFS、Windows でうまく再生できますか?
ストリーミング モードで Hadoop を使用したいと考えています。C# で独自のマッパー/リデューサーを開発するためのアドバイス、ツール、またはトリックはありますか?
ジョブの送信と監視に何を使用していますか?
ありがとう
amazon-web-services - Amazon S3 アーキテクチャ
投稿 @ http://highscalability.com/amazon-architectureでは、Amazon のアーキテクチャ全般について説明していますが、Amazon S3 がどのように実装されているかを知りたいと思っています。
私の推測のいくつかは
- HDFS のような分散ファイル システム http://hadoop.apache.org/core/docs/current/hdfs_design.html
- CouchDB http://couchdb.apache.org/のような非リレーショナル永続 DB
Python や PHP などのスクリプト言語を使用して、これに似たものをはるかに小規模に実装することは可能ですか?
database-design - Hadoop Hbase:列ファミリーをテーブル全体に分散させるかどうか
Hbaseのドキュメントでは、物理的なストレージは列ファミリーによって行われるため、同様の列を列ファミリーにグループ化する必要があることが明確になっています。
しかし、列グループごとに別々のテーブルを持つのではなく、2つの列ファミリーを同じテーブルに配置することはどういう意味ですか?この方法でテーブルを「パーティション化」する方が理にかなっている特定のケースと、1つの「ワイド」テーブルがより適切に機能するケースはありますか?
個別のテーブルは個別の「行領域」になるはずです。これは、一部の列ファミリー(全体として)が非常にまばらな場合に役立ちます。逆に、列のファミリをまとめておくと有利なのはいつですか。
hadoop - AWS での MapReduce
AWS で MapReduce を試した人はいますか? 何かご意見は?実装はどうですか?
.net - .NET クラウドで分散計算を実行するためのフレームワーク
Windows Azureの .NET クラウド環境で実行中の分散計算を簡素化するためのフレームワークを開発することを考えています。
Azure は現在 (おそらくリリース時までには)、クラウドでの分散クエリの単純な実行にはまったく適していません (詳細)。私にとって簡単なのは、クエリを記述できるDryadLINQのようなものです。
クラスター内の複数のマシンでリモートで実行します。面倒な展開、ストレージ、または構成はありません。
この件に関する追加情報 (特にスケジューリングと DAG の最適化) を確認するために、どのリソース、論文、またはオープン ソース プロジェクトをアドバイスできますか?
これまで、Hadoop (Amazon Elastic Map Reduce で使用) と DryadLINQ について掘り下げてきました。明らかに、これにはグーグルが含まれます。
macos - java.io.IOException:ジョブが失敗しました!osxでhadoop-0.19.1を使用してサンプルアプリを実行する場合
なぜこれが起こるのか誰かが知っていますか?同じジョブがLinuxマシンで完全に実行されます。また、「ジョブが失敗しました」が発生すると、Hadoopクラスター全体が応答を停止します。
私のMacOSバージョンは10.5.6です。
編集hadoop-0.20.1の同じ結果
hadoop - org.apache.hadoop.mapred.Mapper での「キー K1」の使用は何ですか?
私はApache Hadoopを学んでおり、WordCountの例org.apache.hadoop.examples.WordCountを見ていました。この例は理解できましたが、変数LongWritable キーが使用されていないことがわかります
この変数の用途は何ですか? 誰かがそれが使用される簡単な例を教えてもらえますか? ありがとう
configuration - Hadoop: HDFS からのマップ/リデュース
私が間違っているかもしれませんが、Apache Hadoop で見たすべての (?) 例は、ローカル ファイル システムに格納されたファイルを入力として受け取ります (例: org.apache.hadoop.examples.Grep)。
Hadoop ファイル システム (HDFS) にデータを読み込んで保存する方法はありますか? たとえば、「stored.xls」という名前のタブ区切りファイルを HDFS に配置しhadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls
ます。それを読み取るように JobConf をどのように設定すればよいですか?
ありがとう 。
hadoop - 舞台裏でのHadoop
ソフトウェアの背後にあるアイデアの観点から、Hadoopとは何かを誰かが説明できますか?何がそんなに人気があり、そして/または強力なのですか?