問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - PIG(Hadoop)で入力をサブストリングに分割する
Pigに次の入力があると仮定します。
そして、私はそれを次のように変換したいと思います。
私は(まだ)ピッグラテン語のchararrayを反復処理する方法を見つけていません。TOKENIZE関数を見つけましたが、それは単語の境界で分割されます。それで、「pig latin」はこれを行うことができますか、それともこれを行うためにJavaクラスを必要とするものですか?
hadoop - Hadoop で DFS を一掃する
Hadoop で DFS を消去するにはどうすればよいですか?
java - Hadoop ディストリビューションの違い
利用可能なさまざまなHadoopディストリビューション間のさまざまな違いを誰かが概説できますか:
Apache Hadoop ディストリビューションをベースラインとして使用します。
標準の Apache Hadoop ディストリビューションでこれらのディストリビューションのいずれかを使用する正当な理由はありますか?
hadoop - BigTable で OLAP を実行できますか?
以前は、MySQL で実行される OLAP キューブを使用して WebAnalytics を構築していました。さて、私が使用した OLAP キューブは、各行が基本的に測定値または測定値の集計セットである単純な大きなテーブルです (OK、それよりも少し賢く格納されています)。各測定値には、一連のディメンション (つまり、どのページ名、ユーザーエージェント、IP など) と一連の値 (つまり、ページビュー数、訪問者数など) があります。
このようなテーブルで実行するクエリは、通常、次の形式 (メタ SQL) です。
したがって、前述のフィルターを使用して、選択した日の各時間の合計を取得します。障害の 1 つは、これらのキューブは通常、完全なテーブル スキャンを意味し (さまざまな理由)、これは、これらのものを作成できるサイズ (MiB 単位) の実際的な制限を意味することでした。
私は現在、Hadoop などの詳細を学んでいます。
上記のクエリを BigTable で mapreduce として実行するのは簡単に見えます。「hour」をキーにして、マップをフィルター処理し、値を合計して reduce するだけです。
バッチ モードではなく、BigTable の種類のシステムで、上に示したような (または少なくとも同じ出力で) クエリを実行できますか?
そうでない場合; BigTable/Hadoop/HBase/Hive などの領域でこのようなことを行うための適切なテクノロジは何ですか?
multithreading - 複数のファイルの BDB 内の値を並行して検索する
BDB で複数のファイルの値を並行して検索する最も効率的な方法は何ですか? 一度に 1 つのファイルに対してこれを行う Perl スクリプトがある場合、Linux でアンパサンドを使用してバックグラウンドでプロセスを fork/実行することはできますか?
この問題を解決するために Hadoop をどのように使用できますか?
スレッド化は別の解決策でしょうか?
sql - HBaseの高度なクエリ
次のHBaseスキーマシナリオ(公式FAQから)を考えると...
StudentとCourseなどの2つのエンティティ間の多対多の関連付けのためにHbaseテーブルをどのように設計しますか?
2つのテーブルを定義します。
学生:学生ID学生データ(名前、住所、...)コース(ここでは列修飾子としてコースIDを使用します)
コース:コースIDコースデータ(名前、シラバス、...)学生(ここでは学生IDを列修飾子として使用します)
このスキーマを使用すると、クエリにすばやくアクセスして、学生のすべてのクラス(学生テーブル、コースファミリー)、またはクラスのすべての学生(コーステーブル、学生ファミリー)を表示できます。
「少なくとも2つの共通のコースを共有するすべての学生を教えてください」という要求をどのように満たしますか?そのセットを返す「クエリ」をHBaseで構築できますか、それともすべての関連データを取得してコードで自分で処理する必要がありますか?
java - Hadoop での Java と Python の比較
私は Hadoop を使用するプロジェクトに取り組んでおり、Java をネイティブに組み込み、Python のストリーミング サポートを提供しているようです。どちらかを選択すると、パフォーマンスに重大な影響がありますか? いずれかの方法でパフォーマンスに大きな違いがある場合は、どちらの方法でもよいプロセスの初期段階にあります。
hadoop - CloudStore 対 HDFS
CloudStoreと HDFSの両方の操作に慣れている人はいますか? CloudStore がどこまでスケーリングされ、本番環境でどれだけ頻繁に使用されているかを知りたいです。CloudStore は HDFS よりも機能が充実しているようです。これら 2 つのファイルシステムについて考えるとき、実際にはどのようなトレードオフがあるのでしょうか?
hadoop - 現在実行中の Hadoop タスクのタスク試行 ID を取得します
Hadoop チュートリアルのTask Side-Effect Filesセクションでは、タスクの「attemptid」を一意の名前として使用することが言及されています。マッパーまたはリデューサーでこの試行 ID を取得するにはどうすればよいですか?