0

構造化データと非構造化データの両方を含む大量のデータを格納するシステムを作成する必要があります。私のクエリは、バイナリ情報だけでなくテキストも検索します。

これらの要件を満たすソリューションを探しています。私は Splunk に出くわしました。これは非常にユーザーフレンドリーで、優れた API を提供しているようです。ただし、非常にログ指向のようで、テキスト検索のみをサポートしているようです (バイナリーはサポートしていません)。私のデータはログではありません。検索する必要がある生のテキスト/バイナリ データがたくさんあります...

だから私の質問は:

  1. Splunk は私の問題に対する良い解決策になるでしょうか? 二分探索を行う方法はありますか?
  2. おそらくより良い解決策はありますか?たぶんHadoop(私はそれについて少し読みましたが、それが私が探しているものかどうかわかりません)?

ありがとう!

4

1 に答える 1

1

Splunk は、あらゆる種類の非構造化、半構造化、および構造化されたマシン データをサポートします。ログは、そのようなマシン データの 1 つの例にすぎません。その他には、syslog フィード、JMX/SNMP メトリック、OS コマンドからの出力、通話詳細レコード、クリックストリーム メトリック、独自の管理/監視インターフェイスからの出力、ソーシャル メディア フィードなどがあります。リストは膨大です。

バイナリ データに関する限り、最初にこれをロールアウトしてテキストにデコードする必要があります。多くの人が実際にこれを行っています。つまり、独自のプロトコルなどのネットワークのバイナリ データをキャプチャし、デコードします。

また、Splunk はデータベースを使用せず、データを収集して、ディスク上の単純な圧縮ファイル形式にインデックス付けすることに注意してください。さらに、そのアーキテクチャにより、スケールアウトして、このすべてのデータを大規模に収集および検索できるようになります。 .

于 2012-10-24T22:09:13.073 に答える