6

少し問題があります。Hadoop について、また Hadoop を使用してデータ ストリームをリアルタイムで処理する方法について学びたいと考えています。そのため、潜在的な雇用主の前で自分の知識を証明したり、現在の会社に紹介したりする必要があるときにそれを紹介できるように、それを中心に意味のある POCを構築したいと考えています。

また、ハードウェア リソースが限られていることにも言及したいと思います。ラップトップと私だけです :) 私は Hadoop の基本を知っており、基本的な MR ジョブを 2 ~ 3 個作成しました。もっと有意義なことや現実世界のことをしたい。

提案してください。

前もって感謝します。

4

8 に答える 8

10

いくつか指摘したい。

ラップトップ 1 台だけで POC を実行したい場合、Hadoop を使用する意味はほとんどありません。

また、他の人が言ったように、Map/Reduce ジョブの実行にはオーバーヘッドがあるため、Hadoop はリアルタイム アプリケーション用に設計されていません。

そうは言っても、Clouderaは Hadoop エコシステム (具体的には Hive メタストア) と連携してリアルタイム パフォーマンスを実現するImpalaをリリースしました。これを実現するために、Map/Reduce ジョブは生成されず、現在はベータ版であることに注意してください。慎重に使用してください。

したがって、Hadoop エコシステムを引き続き使用できるように、Impala を使用することを強くお勧めしますが、代替案も検討している場合は、使用できるその他のフレームワークがいくつかあります。

  • Druid : MetaMarkets によってオープンソース化されました。私自身は使っていませんが、面白そうです。
  • Storm : HDFS との統合はなく、データをそのまま処理します。
  • HStreaming : Hadoop と統合します。
  • Yahoo S4 : Storm にかなり近いようです。

最終的には、ニーズを本当に分析し、Hadoop の使用が必要かどうかを確認する必要があると思います。Hadoop はリアルタイム空間で始まったばかりだからです。リアルタイム パフォーマンスの実現に役立つプロジェクトは他にもいくつかあります。


プロジェクトのアイデアを紹介したい場合は、このリンクを見ることをお勧めします。彼女はいくつかの例です:

  • 金融・保険
    • 業界/企業の指標、ポートフォリオの多様性、通貨リスクなどに基づいて、投資機会を良いか悪いかに分類します。
    • クレジット カード取引を有効または無効に分類する。たとえば、取引場所とクレジット カード所有者、日付、金額、購入したアイテムまたはサービス、取引履歴、および同様の取引に基づいて分類する。
  • 生物学/医学
    • 構造クラスまたは機能クラスへのタンパク質の分類
    • 診断分類、例えば画像に基づく癌腫瘍
  • インターネット
    • ドキュメントの分類とランキング
    • マルウェア分類、メール/ツイート/Web スパム分類
  • 生産システム (エネルギーまたは石油化学産業など)
    • センサーからのリアルタイム データと履歴データに基づいて、状況 (スイート スポットやリスク状況など) を分類および検出します。
于 2013-01-12T17:50:25.013 に答える
3

非常に有望なストリーミング フレームワークを試してみたい場合は、BDAS SPARK ストリーミングを試してください。注意、これはまだリリースされていませんが、ラップトップで github バージョン ( https://github.com/mesos/spark/tree/streaming ) で遊ぶことができます。始めるためのサンプルがたくさんあります。

また、これには既存のフレームワークよりも多くの利点があります。1. 1 つのスタックでリアルタイム計算とバッチ計算を組み合わせることができます。2. アドホック クエリをインタラクティブに試すことができる REPL を提供します。3.これをラップトップでローカルモードで実行できます。他にも多くの利点がありますが、この 3 つがあれば、始めるには十分だと思います。

REPL を試すには、scala を学ぶ必要があるかもしれません :-(

詳細については、http://spark-project.org/をご覧ください。

于 2013-02-18T14:18:04.130 に答える
1

私が確信している上品な問題の 1 つは、何よりもリアルタイムです。オプション取引。ここで重要なのは、ニュース、ツイッター、フェイスブック、ユーチューブのトレンドを監視し、可能性のある PUT または CALL の候補を特定することです。Nutch/Lucene を使用した Mahout の優れたスキルと精巧な実装が必要です。次に、傾向データを使用して現在の状況を理解し、システムが賭け (オプション) を推奨する必要があります。

于 2013-03-15T16:32:46.110 に答える
1

Hadoop は、バッチ プロセスに適した高スループット指向のフレームワークです。膨大なデータ セットをリアルタイムで処理および分析することに興味がある場合は、Twitter ストームを調べてください。

于 2013-01-12T17:30:13.453 に答える
0

mapreduce の回帰のためのオンライン/再帰アルゴリズムなど、POC を実行できると思います。ただし、これは「学習ルール」が機能することを証明するだけであることを忘れないでください。おそらく(これを試したことはありません)、別のスレッドが読み取ることができる一時ファイルに結果を書き込むようにリデューサーに指示することで、結果をリアルタイムで使用できます。

また、Mahout では、データベースをいくつかの異なる に設定できますSequenceFile。これを使用して、オンライン ストリームをシミュレートし、データ セットを「オンライン」で分類/クラスタ化できます。アルゴリズムの実行を開始する前に、データの一部を他のデータと一緒にフォルダーにコピーすることもできます。 その方法については、Mahout in Action で詳しく説明しています。

次のデータセットのいずれかが好みに合っているかどうかを確認してください: http://archive.ics.uci.edu/ml/datasets.html

于 2013-04-07T16:35:28.507 に答える
0

私は明らかに偏っていますが、GridGainをリアルタイムで確認することもお勧めします。GridGainは、ACID NoSQL データストアと高速なインメモリ MapReduce を提供するインメモリ データ プラットフォームです。

于 2013-01-17T03:14:08.110 に答える
-1

私はこのようなものを探していました -

https://www.kaggle.com/competitions

これらは明確に定義された問題であり、その多くはビッグデータの問題です。また、リアルタイム処理が必要なものもあります。

しかし、答えてくれたすべての人に感謝します。

于 2013-01-13T13:16:02.253 に答える