0

Splunk は初めてです。わずか3日間です。フィールド化されたデータとフィールド化されていないデータの形式の生データのインデックス作成と検索に Lucene を使用しています。Lucenes の検索パフォーマンスには非常に感銘を受けました。エクスペリエンス コミュニティが、splunk のいくつかの機能についてここで私を案内してくれるかどうか疑問に思っていました。具体的には、Lucene について私がすでに知っていることに関して、splunk を比較します。検索に限らず。

  • Splunk はストップ ワードをどのように処理しますか? a,the,is... などの非常に一般的な単語は、手動で lucene に提供できます。

  • Splunk はワイルドカード検索、近接検索、正規表現検索を実行しますか? フィールド検索ができることはわかっています。

  • インデックスの最適化。特に圧縮。

  • splunk であいまいな類義語ベースの検索を行うことはできますか?

    これは長い質問になるに違いありませんが、Splunk の経験豊富な人々からいくつかのポイントを知りたいと思っています。

ありがとうございました。

4

1 に答える 1

5

これは、機械で生成された時系列データのインデックスを作成しようとする Splunk と、もともと人間が生成したテキスト ドキュメントのインデックスを作成するために設計された Lucene との違いについて、非常に長い議論になる可能性があります。ご質問から始めましょう。

  1. Splunk にはストップ ワードの概念がありません。デフォルトでは、Splunk は、セグメンテーション ルールで定義されているように、イベントで見つかったすべてのキーワードにインデックスを付けます。

  2. Splunk はワイルドカード検索とフレーズ検索を提供しますが、インデックスはネイティブ近接検索または正規表現検索を提供しません。それらについては、検索処理パイプラインの後続のコマンドに依存しています。

  3. Splunk は保存する生データを積極的に圧縮し、明示的な圧縮やその他のフットプリントの少ないデータ構造を使用して、インデックスをできるだけ小さくするために多大な努力を払っています。通常、エントロピーに応じて、生データは元のデータのサイズの 10%、インデックスは元のデータのサイズの 20 ~ 40% になると予想できます。Together Splunk は通常、元の生データの 30 ~ 50% のサイズをストレージとして必要とします。

  4. インデックス自体は同義語のサポートを提供していません。これは人間のテキストにとって根本的な問題であるためです。ただし、類義語を含むクエリの意味のあるクラスを表すために使用できるイベントタイプで、類似の概念を提供します。

于 2012-04-04T16:54:08.163 に答える