“hadoop”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

10881 参照

hadoop - PIG（Hadoop）で入力をサブストリングに分割する

Pigに次の入力があると仮定します。

そして、私はそれを次のように変換したいと思います。

私は（まだ）ピッグラテン語のchararrayを反復処理する方法を見つけていません。TOKENIZE関数を見つけましたが、それは単語の境界で分割されます。それで、「pig latin」はこれを行うことができますか、それともこれを行うためにJavaクラスを必要とするものですか？

2009-09-09T14:42:17.010

0 投票する

7 に答える

18686 参照

hadoop - Hadoop で DFS を一掃する

Hadoop で DFS を消去するにはどうすればよいですか?

hadoop

2009-09-10T23:46:41.520

0 投票する

4 に答える

2617 参照

java - Hadoop ディストリビューションの違い

利用可能なさまざまなHadoopディストリビューション間のさまざまな違いを誰かが概説できますか:

Cloudera - http://www.cloudera.com/hadoop
ヤフー- http://developer.yahoo.net/blogs/hadoop/

Apache Hadoop ディストリビューションをベースラインとして使用します。

標準の Apache Hadoop ディストリビューションでこれらのディストリビューションのいずれかを使用する正当な理由はありますか?

java hadoop mapreduce

2009-09-11T18:33:59.610

0 投票する

5 に答える

8149 参照

hadoop - BigTable で OLAP を実行できますか?

以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。

このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。

したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブルスキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。

私は現在、Hadoop などの詳細を学んでいます。

上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。

バッチモードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?

そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?

hadoop olap mapreduce hbase hive

2009-09-14T21:59:29.360

0 投票する

1 に答える

172 参照

multithreading - 複数のファイルの BDB 内の値を並行して検索する

BDB で複数のファイルの値を並行して検索する最も効率的な方法は何ですか? 一度に 1 つのファイルに対してこれを行う Perl スクリプトがある場合、Linux でアンパサンドを使用してバックグラウンドでプロセスを fork/実行することはできますか?

この問題を解決するために Hadoop をどのように使用できますか?

スレッド化は別の解決策でしょうか?

multithreading hadoop berkeley-db

2009-09-15T17:03:20.063

0 投票する

4 に答える

6583 参照

sql - HBaseの高度なクエリ

次のHBaseスキーマシナリオ（公式FAQから）を考えると...

StudentとCourseなどの2つのエンティティ間の多対多の関連付けのためにHbaseテーブルをどのように設計しますか？

2つのテーブルを定義します。

学生：学生ID学生データ（名前、住所、...）コース（ここでは列修飾子としてコースIDを使用します）

コース：コースIDコースデータ（名前、シラバス、...）学生（ここでは学生IDを列修飾子として使用します）

このスキーマを使用すると、クエリにすばやくアクセスして、学生のすべてのクラス（学生テーブル、コースファミリー）、またはクラスのすべての学生（コーステーブル、学生ファミリー）を表示できます。

「少なくとも2つの共通のコースを共有するすべての学生を教えてください」という要求をどのように満たしますか？そのセットを返す「クエリ」をHBaseで構築できますか、それともすべての関連データを取得してコードで自分で処理する必要がありますか？

sql nosql hadoop hbase

2009-09-16T23:50:40.920

0 投票する

3 に答える

40529 参照

java - Hadoop での Java と Python の比較

私は Hadoop を使用するプロジェクトに取り組んでおり、Java をネイティブに組み込み、Python のストリーミングサポートを提供しているようです。どちらかを選択すると、パフォーマンスに重大な影響がありますか? いずれかの方法でパフォーマンスに大きな違いがある場合は、どちらの方法でもよいプロセスの初期段階にあります。

java python hadoop

2009-09-26T21:55:05.030

0 投票する

2 に答える

1826 参照

hadoop - CloudStore 対 HDFS

CloudStoreと HDFSの両方の操作に慣れている人はいますか? CloudStore がどこまでスケーリングされ、本番環境でどれだけ頻繁に使用されているかを知りたいです。CloudStore は HDFS よりも機能が充実しているようです。これら 2 つのファイルシステムについて考えるとき、実際にはどのようなトレードオフがあるのでしょうか?

hadoop hdfs

2009-09-29T20:14:43.007

0 投票する

3 に答える

8114 参照

hadoop - 現在実行中の Hadoop タスクのタスク試行 ID を取得します

Hadoop チュートリアルのTask Side-Effect Filesセクションでは、タスクの「attemptid」を一意の名前として使用することが言及されています。マッパーまたはリデューサーでこの試行 ID を取得するにはどうすればよいですか?

hadoop

2009-09-29T20:15:58.887

問題タブ [hadoop]

Reference