いくつか指摘したい。
ラップトップ 1 台だけで POC を実行したい場合、Hadoop を使用する意味はほとんどありません。
また、他の人が言ったように、Map/Reduce ジョブの実行にはオーバーヘッドがあるため、Hadoop はリアルタイム アプリケーション用に設計されていません。
そうは言っても、Clouderaは Hadoop エコシステム (具体的には Hive メタストア) と連携してリアルタイム パフォーマンスを実現するImpalaをリリースしました。これを実現するために、Map/Reduce ジョブは生成されず、現在はベータ版であることに注意してください。慎重に使用してください。
したがって、Hadoop エコシステムを引き続き使用できるように、Impala を使用することを強くお勧めしますが、代替案も検討している場合は、使用できるその他のフレームワークがいくつかあります。
- Druid : MetaMarkets によってオープンソース化されました。私自身は使っていませんが、面白そうです。
- Storm : HDFS との統合はなく、データをそのまま処理します。
- HStreaming : Hadoop と統合します。
- Yahoo S4 : Storm にかなり近いようです。
最終的には、ニーズを本当に分析し、Hadoop の使用が必要かどうかを確認する必要があると思います。Hadoop はリアルタイム空間で始まったばかりだからです。リアルタイム パフォーマンスの実現に役立つプロジェクトは他にもいくつかあります。
プロジェクトのアイデアを紹介したい場合は、このリンクを見ることをお勧めします。彼女はいくつかの例です:
- 金融・保険
- 業界/企業の指標、ポートフォリオの多様性、通貨リスクなどに基づいて、投資機会を良いか悪いかに分類します。
- クレジット カード取引を有効または無効に分類する。たとえば、取引場所とクレジット カード所有者、日付、金額、購入したアイテムまたはサービス、取引履歴、および同様の取引に基づいて分類する。
- 生物学/医学
- 構造クラスまたは機能クラスへのタンパク質の分類
- 診断分類、例えば画像に基づく癌腫瘍
- インターネット
- ドキュメントの分類とランキング
- マルウェア分類、メール/ツイート/Web スパム分類
- 生産システム (エネルギーまたは石油化学産業など)
- センサーからのリアルタイム データと履歴データに基づいて、状況 (スイート スポットやリスク状況など) を分類および検出します。