問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - CachedRowSetImpl.execute() を使用せずに ResultSet をコピーする
クエリの実行後に接続を閉じようとしています。以前は、CachedRowSetImpl
インスタンスを作成するだけで、インスタンスがリソースを解放してくれました。ただし、Hadoop プロジェクトの Hive データベース ドライバーを使用しています。には対応していませんCachedRowSetImpl.execute()
。ResultSet
オブジェクトをコピーして接続を閉じることができる他の方法があるかどうか疑問に思っていますか?
algorithm - MapReduceの並べ替えアルゴリズムはどのように機能しますか?
MapReduceの能力を実証するために使用される主な例の1つは、Terasortベンチマークです。MapReduce環境で使用される並べ替えアルゴリズムの基本を理解するのに問題があります。
私にとって、並べ替えには、他のすべての要素との関係における要素の相対的な位置を決定することが含まれます。したがって、並べ替えには、「すべて」と「すべて」を比較することが含まれます。平均的な並べ替えアルゴリズム(クイック、バブルなど)は、これをスマートな方法で実行します。
私の考えでは、データセットを多くの部分に分割するということは、1つの部分を並べ替えることができ、それでもこれらの部分を「完全な」完全に並べ替えられたデータセットに統合する必要があることを意味します。数千のシステムに分散されたテラバイトのデータセットを考えると、これは大きな作業になると思います。
では、これは実際にどのように行われるのでしょうか。このMapReduceソートアルゴリズムはどのように機能しますか?
私が理解するのを手伝ってくれてありがとう。
java - Java Generics & Hadoop: クラス変数を取得する方法
私は Java で Hadoop の作業を行っている .NET プログラマーです。Hadoop で、Map ジョブの出力キーが type である Map-Reduce ジョブをセットアップしようとしていますTuple<IntWritable,Text>
。次のようにsetOutputKeyclassを使用して出力キーを設定すると
ジェネリックと「.class」表記がうまくいかないように見えるため、大量のエラーが発生します。以下は正常に動作しますが
出力キークラスを設定する方法についての指針はありますか?
乾杯、ユルゲン
hadoop - ギガバイトのデータを扱う
私は新しいプロジェクトを始めるつもりです。.NET アプリケーションで数百ギガのデータを処理する必要があります。このプロジェクトについて詳細を説明するのは、まだ非常に早い段階です。概要は次のとおりです。
- 同じテーブルに対する大量の書き込みと大量の読み取り、非常にリアルタイム
- クライアントはデータベース サーバーの拡張を非常に頻繁に要求するため、スケーリングは非常に重要です。
- 予測すると、集計クエリに関して非常に多くの使用が実装される可能性があります
- データの各行には、処理する属性が多数含まれる場合があります
私は解決策として以下を提案/しています:
- 永続性の分散ハッシュ テーブルの並べ替えを使用します (S3 ではなく社内のもの)。
- ノード間の分析プロセスには、Hadoop/Hive ライク (.NET の代替品はありますか?) を使用します。
- ASP.NET/Silverlight での GUI の実装 (必要に応じて多数の ajax 化を使用)
皆さんはどう思いますか?私はここで何か意味がありますか?
hadoop - ストリーミング データと Hadoop? (Hadoop ストリーミングではない)
MapReduce アプローチを使用して (HTTP 経由でアクセスされる) データの連続ストリームを分析したいので、Apache Hadoop を調べています。残念ながら、Hadoop は、新しいデータが到着したときに消費者に渡すことができるのではなく、固定サイズの入力ファイルでジョブを開始することを期待しているようです。これは実際に当てはまりますか、それとも何か不足していますか? 開いているソケットから読み込まれるデータを操作する別の MapReduce ツールはありますか? ここではスケーラビリティが問題になるので、MapReducer に厄介な並列処理を処理させたいと思います。
Cascadingをいじってみたところ、HTTP 経由でアクセスする静的ファイルでジョブを実行できましたが、これで実際に問題が解決するわけではありません。中間ステップとして curl を使用して Hadoop ファイルシステムのどこかにデータをダンプし、新しいデータ チャンクの準備が整うたびに新しいジョブを起動するウォッチドッグを作成することもできますが、それは汚いハックです。これを行うには、もっとエレガントな方法が必要です。何か案は?
amazon-s3 - Hadoop 入力ファイル
Hadoop の実行時に、入力フォルダーにそれぞれ 1 行の n 個のファイルがあることと、入力フォルダーに n 行の 1 個のファイルがあることに違いはありますか?
n個のファイルがある場合、「InputFormat」はすべてを1つの連続したファイルとして認識しますか?
hadoop - Map Rreduce Hadoop で入力ログ .PCAP(Binary) を使用するにはどうすればよいですか
ログの Tcpdump はバイナリ ファイルです。入力データの分割チャンクに使用する必要がある Hadoop の FileInputFormat を知りたいです...助けてください!!
hadoop - ローカルから hdfs にファイルをコピーするときの Hadoop DFS エラー
誰かが私が間違っていることを教えてもらえますか?
hadoop - Hadoop DFS 権限エラー
LFS から HDFS にいくつかのファイルを配置しようとすると、このエラーが発生し続けるのはなぜですか?
hadoop - LAN 上のビデオを別の場所に配信する - ブラウザはこれを検出できますか?
私は会社のイントラネットの管理者で、ビデオの制作を開始したいと考えています。ただし、ロケーション間の帯域幅トンネルは非常に小さいため、複数のユーザーがビデオをストリーミングして帯域幅を占有することは避けたいと考えています。
各場所のサーバーにファイルを同期したいと思います。次に、ブラウザー (またはイントラネット) に、私がいるサイトを検出してもらいたいと思います。そこから、一番近い場所から動画をリクエストしてほしいです。
私はこれを行ったことがなく、これに対する解決策が既にあるかどうか疑問に思っていました。Hadoop がこれを行う可能性があるように見えますが、それを学習する前に、それを使用している誰かから聞いてみたいと思います。