問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 大規模なデータ セットに対する迅速なクエリに適している Hadoop 製品はどれですか?
Hadoop を調査して、大規模なデータ セット (1 セットあたり数十億のレコード) に対する迅速なクエリのニーズに適した製品を確認しています。
クエリは、チップ シーケンス データに対して実行されます。各レコードは、ファイル内の 1 行です。わかりやすくするために、データ セットのサンプル レコードを以下に示します。
1 行 (レコード) は次のようになります。
強調表示されたフィールドは「一致の位置」と呼ばれ、関心のあるクエリは、この「一致の位置」の特定の範囲内のシーケンスの数です。たとえば、範囲は「一致の位置」> 200 および「一致の位置」+ 36 < 200,000 にすることができます。
タスクを達成するために最初にすべき Hadoop 製品に関する提案はありますか? HBase、Pig、Hive、または ...?
java - 分散ジョブのスケジューリング、管理、およびレポート
私は最近、Hadoopをいじってみましたが、MapReduce ジョブのスケジューリング、管理、およびレポート機能に感銘を受けました。これにより、新しいジョブの配布と実行が非常にシームレスになり、開発者はジョブの実装に集中できるようになります。
MapReduce の問題として簡単に表現できないジョブの分散実行用の Java ドメインが存在するかどうか疑問に思っています。例えば:
タスクの調整と同期が必要なジョブ。たとえば、タスクの順次実行が含まれる場合がありますが、いくつかのタスクを同時に実行することは可能です。
/li>分散したいが、削減する出力を提供しない CPU 集中型のタスク (画像の変換/サイズ変更など)。
そのような分散コンピューティング環境を提供するJavaフレームワーク/プラットフォームはありますか? それとも、この種のことは Hadoop を使用して許容/達成可能ですか? もしそうなら、これらの種類の仕事のためのパターン/ガイドラインはありますか?
hudson - hudson 用の Hadoop プラグインをインストールした結果、hdfs にアクセス制御を設定する方法
Hadoop を有効にする hudson プラグインをインストールしました。今、そこにデータを入れるためのアクセス権がないことがわかりました。hudson が Hadoop をどのように構成したかは、私にはまったくわかりません。これらの権限を変更する方法を教えてもらえますか?
eclipse - HadoopDB用のEclipseプロジェクト環境の確立
私はHadoopDBという名前のSourceForgeからプロジェクトをチェックアウトしました。Hiveという名前の別のプロジェクトでいくつかのクラスを使用します。Eclipse Javaビルドパス設定を使用してソースをHiveプロジェクトのルートフォルダーにリンクしましたが、HadooDBプロジェクトのクラスには次のようなエラーがあります。
HiveルートフォルダをHadoopDBソースタブまたは他のフォルダにリンクする必要がありますか?
java - クロール エンジンのアーキテクチャ - Java/Perl の統合
Web クロールの Perl スクリプトに関する管理および管理ソリューションの開発を検討しています。基本的に、現在、スクリプトは SVN に保存され、SysAdmin/devs などによって手動で開始されます。新しいソースからデータを取得する必要があるたびに、ビジネスの指示と目標を含むチケットを作成する必要があります。ご想像のとおり、最適なソリューションではありません。
このシステムには 3 つの一貫したテーマがあります。
- データの検索には、より適切なフレーズがないための「概念構造」があります。つまり、情報の検索は特定の経路をたどります。
- 私たちは非常に具体的な情報のみを探しているので、しばらくの間は大規模なクロールについて心配する必要はありません (数千から数万のページと数百万のページを考えてみてください)
- クロールは、サイト ベースではなく URL ベースです。
このアルファ版をより実稼働レベルのベータ版に拡張する際に、データ取得の自動化と管理を追加したいと考えています。さらに、私たちの他のシステムは Java (私はこちらの方が得意です) であり、外部の助けに大きく依存する必要がないように、perl の側面を区分したいと考えています。
通常の容疑者Nutch、Droidなどを評価しましたが、特定の情報検索に合わせてこれらのフレームワークを変更するのに費やした時間は正当化できません。
そこで、以下のアーキテクチャについてご意見をお聞かせください。
ソリューションを作成したい
- perl スクリプトの管理と実行のためのインターフェースとして Java を使用する
- 構成とデータ アクセスに Java を使用する
- 検索のためにperlに固執する
ユースケースの例は次のとおりです。
- データ アナリストから、クロールの要件が提示されました
- perl 開発者は必要なスクリプトを作成し、この webapp を使用してスクリプトを送信します (スクリプトはファイルシステムに保存されます)。
- スクリプトは、特定のパラメーターを使用して webapp から開始されます ....
Webapp は、perl スクリプトの複数のスレッドを作成して、複数のクローラーを開始できる必要があります。
だから質問は
- どう思いますか
- 特にJavaからPerlを呼び出すことから、JavaとPerlの間の統合がどれほど堅実であるか
- 実際にperlリポジトリの一部であるそのようなシステムを誰かが使用しましたか
本当の目標は、整理されていない perl スクリプトを大量に持たないようにし、情報検索にある程度の管理と組織を配置することです。また、perl を使用して必要な Web 部分を実行できることもわかっていますが、前に述べたように、perl に焦点を合わせ続けようとしています。しかし、私はこれをすべて perl ソリューションにすることに反対ではないようです。
すべての提案や意見を受け入れます。
ありがとう
aggregate - Elastic MapReduce で利用可能なレデューサー
私はこれを正しい方法で尋ねていることを願っています。私はElastic MapReduceの使い方を学んでおり、「ストリーミング」ジョブフローで使用できる「集約」リデューサーへの参照を数多く見てきました。
Amazon の「Introduction to Amazon Elastic MapReduce」PDF には、「Amazon Elastic MapReduce には、aggregrate と呼ばれるデフォルトのレデューサーがあります」と記載されています。
私が知りたいのは、他に利用可能なデフォルトのレデューサーはありますか?
独自のレデューサーを作成できることは理解していますが、既存のものを作成して「ホイールを再発明」することはしたくありません。私のホイールは元のホイールほど良くないと確信しているためです。
storage - スケーラブルな画像ストレージ
私は現在、ある種の画像ストレージも提供する必要がある Web ベースのアプリケーションのアーキテクチャを設計しています。ユーザーは、サービスの重要な機能の 1 つとして写真をアップロードできます。また、これらの画像を表示することも (Web 経由で) 主な用途の 1 つになります。
ただし、このようなスケーラブルなイメージ ストレージ コンポーネントをアプリケーションで実現する方法がわかりません。私はすでに別の解決策を考えましたが、経験が不足しているため、あなたの提案を聞くのを楽しみにしています. 画像とは別に、メタデータも保存する必要があります。ここに私の最初の考えがあります:
HDFS のような (分散) ファイルシステムを使用し、アップロードされた画像とサービス要求を保存するために、専用の Web サーバーを「ファイルシステム クライアント」として準備します。画像のメタデータは、各画像のファイルパス情報を含む追加のデータベースに保存されます。
HDFS の上に HBase のような BigTable 指向のシステムを使用し、画像とメタ データを一緒に保存します。繰り返しますが、ウェブサーバーは画像のアップロードとリクエストを橋渡しします。
画像とメタデータの両方を格納するために、CouchDB のような完全にスキーマレスなデータベースを使用します。さらに、HTTP ベースの RESTful API を使用して、データベース自体をアップロードおよび配信に使用します。(追加の質問: CouchDB は Base64 経由で blob を保存しますが、画像/jpeg などの形式でデータを返すことはできますか?)
servlets - Hadoop 上のサーブレット コンテナー?
私は大規模なプロジェクトのアーキテクチャ段階にあり、データベースとして hbase を使用することに決めました。また、処理に map/reduce ジョブを使用することで、アーキテクチャが完全に Hadoop で動作するようにします。
問題は、いくつかの REST、SOAP API のいくつかの Web ページも実装する必要があることです。そのため、Hadoop 上で実行されるサーブレット コンテナーが存在するのではないかと考えていました。これにより、セカンダリ クラスターのメカニズムを心配することなく、システムが冗長性と分散性を維持できるようになります (すでにHadoop用にセットアップされています)。
では、hbase(データベース) が Hadoop 上で実行されるように、Hadoop 上で実行されるサーブレット コンテナーはありますか?
streaming - AWS での MapReduce の Hadoop または Hadoop ストリーミング
AWS で実行する mapreduce プロジェクトを開始しようとしていますが、Java または C++ のいずれかを使用する選択肢が提示されました。
Java でプロジェクトを作成すると、より多くの機能を利用できるようになることは理解していますが、Hadoop ストリーミングを使用して C++ でそれを実現することもできます。
念のために言っておきますが、私はどちらの言語のバックグラウンドもほとんどありません。同様のプロジェクトが C++ で行われており、コードを利用できます。
私の質問: この追加機能は AWS から利用できますか? それとも、クラウドをより詳細に制御できる場合にのみ関連しますか? ある言語または別の言語でより適切に機能する Hadoop 用のプラグインの入手可能性など、決定を下すために心に留めておくべきことは他にありますか?
前もって感謝します
hadoop - Hadoopを使用してWordドキュメントをPDFに変換する
何千ものWordファイルをPDFに変換したい場合、Hadoopを使用してこの問題に取り組むことは理にかなっていますか?Hadoopを使用すると、ジョブキューで複数のEC2インスタンスを使用するよりも利点がありますか?
また、1つのファイルと10の空きノードがある場合、hadoopはファイルを分割して10のノードに送信しますか、それとも9がアイドル状態のときにファイルは1つのノードにのみ送信されますか?