問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - Hadoop の使用経験はありますか?
Hadoop を試した人はいますか? 共有なしのアーキテクチャで、分散ファイルシステムなしで使用できますか? それは理にかなっていますか?
また、あなたのパフォーマンス結果にも興味があります...
hadoop - Hive は HBase と比べてどうですか?
最近リリースされた ( http://mirror.facebook.com/facebook/hive/hadoop-0.17/ ) Hive と HBase のパフォーマンスの比較に興味があります。Hive で使用される SQL に似たインターフェイスは、実装した HBase API よりもはるかに優れています。
hadoop - Hbase/Hadoopクエリヘルプ
私は友人と一緒に、Hbaseを利用してデータを保存するプロジェクトに取り組んでいます。良いクエリの例はありますか?SQLランドで単純なクエリを記述できる場合、RowResultのリストを反復処理するために大量のJavaコードを記述しているようです。私は何かが足りないのですか?それとも、Hbaseに何かが欠けていますか?
hadoop - Erlangで任意のデータ分析を実行することは可能ですか?
Erlangのデータに関する質問に答えたい:物事を数え、メッセージを相互に関連付け、任意の統計を提供する。これをHadoopに頼ることを考えていましたが、生のアーランでソリューションを構築して、必ずしもmap / reduceを介してではなく、何らかの方法で任意のデータ分析を行うことは可能ですか?私はこれを行っている人々のヒントを見てきましたが、明示的なブログ投稿やこれが行われている例はありません。Powersetの自然言語機能はErlangで書かれていることを私は知っています。私はCouchDBについても知っていますが、他の解決策を探していました。
ruby-on-rails - 数十億のレコード アプリのフロントエンドとしての Ruby On Rails/Merb
Ruby on Rails または Merb で記述された、数十億のレコードを持つデータを処理するアプリケーションのバックエンド ソリューションを探しています。私は分散モデルを使用することになっていると感じていますが、現時点では
私が見た HBase ソリューションの問題 -- Ruby のサポートはあまり強力ではなく、Couchdb はまだバージョン 1.0 に達していません。
このような大量のデータに何を使用するかについての提案はありますか?
データは、時には一度に 30 ~ 40Mb のかなり高速なインポートを必要としますが、インポートはチャンクで行われます。そのため、データの約 95% は読み取り専用になります。
hadoop - MapReduce/Hadoop をどのように使用していますか?
他の人々がHadoopやその他の MapReduce のようなテクノロジーをどのように使用しているかについての一般的な情報を探しています。一般的に、既存のデータ セット (Web サーバー ログ ファイルなど) を処理する MR アプリケーションを作成しているのか、それとも新しいデータ セットを生成して処理するアプリケーションを作成しているのかに興味があります。
編集: フォローアップの質問
(1) 他の MR プログラムによって生成されたデータに対して MR プログラムを実行したことがありますか?
(2) MR を使用して既存のデータ セットを変更する必要はありますか?
(3) データセットを他の開発者と共有したことがありますか?
c# - Apache Hadoop に相当する .NET はありますか?
それで、私はHadoopに強い関心を持って注目してきました。正直なところ、私は魅了されています。
私の唯一の小さな問題は、私が C# 開発者であり、それが Java であることです。
Hadoop.net や NHadoop、またはGoogle MapReduceアプローチを取り入れた .NET プロジェクトを探しているほど Java を理解していないわけではありません。誰か知っていますか?
database - 大規模データ - ストレージとクエリ
約 3 億レコードの膨大なデータがあり、3 ~ 6 か月ごとに更新されます。情報を取得するには、このデータを (継続的に、リアルタイムで) クエリする必要があります。オプションは何ですか - RDBMS(mysql) 、またはHadoop のような他のオプションがあります。どれが良いでしょうか?
rdbms - Hbase スキーマの設計方法
この RDBM テーブル ( Entity-attribute-value_model ) があるとします。
スケーリングの問題により、HBase を使用したいと考えています。
Hbase テーブルにアクセスする唯一の方法は、主キー (カーソル) を使用することです。特定のキーのカーソルを取得し、行を 1 つずつ反復できます。
問題は、私の場合、3 つの列すべてを反復できるようにしたいということです。例えば :
- 指定されたエンティティIDについて、そのすべての属性と値を取得したい
- 特定の属性名と値に対して、すべてのentitiIDSが必要です...
したがって、私が持っていた1つのアイデアは、データを保持する1つのHbaseテーブル(エンティティIDをプライマリインデックスとして持つテーブルDATA)と、2つの「インデックス」テーブルを構築することです。
各インデックス テーブルは、DATA テーブルのポインター (entityID) のリストを保持します。
それは合理的なアプローチですか?それともHbaseの概念の「乱用」ですか?
HBase では、主キーによる get 操作と行範囲のスキャン (カーソルを考えてください) が可能です。(スケールとセカンダリ インデックスの必要性の両方がある場合でも、心配する必要はありません。Lucene が助けてくれます! しかし、それは別の投稿です。)
Lucene がどのように役立つか知っていますか?
-- よなたん
algorithm - MapReduce / Hadoopを使用して固有値計算を実装する方法は?
PageRankが固有値の形式であり、それがMapReduceが導入された理由であるために可能です。しかし、実際の実装には問題があるようです。たとえば、すべてのスレーブコンピューターがマトリックスのコピーを維持する必要がありますか?