hadoop - ログをアーカイブし、リアルタイム検索機能を備えたソリューションが必要

Question

次のオプションを検討しています。

senseidb [http://www.senseidb.com] これには固定スキーマとデータゲートウェイが必要です。そのため、データをプッシュする簡単な方法はありませんが、データストリームを提供します。データが構造化されておらず、あらゆる種類のログに共通する属性がほとんどない
riak[http://wiki.basho.com/Riak-Search.html]
vertica - コスト要因?
Hbase(+Hadoop エコシステム +lucene) - ここでの主な短所は単一のマシン上にあり、これはあまり意味がなく、これを中心に構築されるフリーテキスト検索機能については確信が持てません

主な要件は次のとおりです。 1. アーカイブのために何千もの着信要求を維持すると同時に、エンドユーザーがフリーテキスト検索を実行できるようにするリアルタイムインデックスを構築する必要があります。

ストレージ (ログアーカイブ + インデックス) は最適化する必要があります

score 1 · Accepted Answer

特殊なログストレージとインデックス作成が多数ありますが、必ずしもログを通常のデータストアに詰め込む必要があるかどうかはわかりません。

多額の資金を持っている場合、Splunkを打ち負かすのは困難です。

オープンソースのオプションを希望する場合は、ServerFault のディスカッションを参照してください。logstash + ElasticSearch は非常に有力な選択肢のようで、ログと同様にかなり大きくなるはずです。

score 0 · Accepted Answer

2 ～ 3 TB のデータは、「中間」のケースのように聞こえます。それがすべてのデータである場合、BigData / NoSQL ベンチャーに参入することはお勧めしません。
全文検索機能を備えた RDBMS は、優れたハードウェアで実行する必要があると思います。2 ～ 3 TB のデータを処理できるように、時間をかけて積極的にパーティショニングを行うことをお勧めします。パーティショニングがなければ、あまりにも多くなります。同時に、データが日ごとに分割される場合、MySQL のデータサイズは問題ないと思います。
以下のコメントを考慮すると、データサイズは約 10 ～ 15 TB であり、レプリケーションの必要性を考慮すると、この数は x2 ～ x3 になります。また、データサイズから数十パーセントと見積もるインデックスのサイズも考慮する必要があります。おそらく効率的な単一ノードソリューションは、主にライセンスコストが原因で、クラスタリングよりも高価になる可能性があります。
私の理解では、既存の Hadoop/NoSQL ソリューションは、ほとんどの場合、インデックスを作成するドキュメントの数が原因で、すぐに要件を満たすことができません。場合によっては、各ログはドキュメントです。(http://blog.mgm-tp.com/2010/06/hadoop-log-management-part3/)
ということで、一定期間のログをまとめてまとめて、1 つのドキュメントとして威嚇することが解決策になると思います。
これらのログパッケージの保存には、HDFS または Swift が適切なソリューションになる可能性があります。

score 0 · Accepted Answer

これらの実装について考えたことはありますか。問題を解決するには、Lucene と Hadoop を統合すると役立つ場合があります。

http://www.cloudera.com/blog/2011/09/hadoop-for-archiving-email/ http://www.cloudera.com/blog/2012/01/hadoop-for-archiving-email-part- 2/

そのため、メールの代わりに、ユースケースでログファイルとパラメーターを使用してインデックスを作成できます。

hadoop - ログをアーカイブし、リアルタイム検索機能を備えたソリューションが必要

3 に答える 3

Related

Reference