regex - 正規表現マッチングを高速化しますか?

Question

ログを行ごとに読み取るログパーサーを作成しています。約100のルールがあり、次のように機能します。

if ($line =~ /blabla (field1) (field2)/) 
{ do something } 
else if ($line =~ /something (field1) (field2) else/)
{ do something }

しかし、大きなログファイルの場合、非常に多くのルールに対して 1 行を照合するのが遅くなる可能性がありますO(n)。

それで、この問題について何か提案はありますか？単純な文字列とワイルドカードの一致だけではないため、使用できるデータ構造があるかどうかはわかりません。

score 7 · Accepted Answer

おそらくディスパッチテーブルを使用できますか？

my %handlers = (
   blabla    => \&blabla,
   something => \&something,
);

while (<>) {
   my ($keyword) = $line =~ /^(\S+)/
      or next;

   $handlers{$keyword}
      or next;

   $handlers{$keyword}->($line);
}

score 5 · Accepted Answer

あなたの最適化は時期尚早だと思います。

この概念的な大きなログファイルで試してみましたか? 実際には遅すぎますか？次に、実際に遅すぎる場合は、Devel::NYTProf などのプロファイリングツールを使用して、正確に何が遅いのかを調べます。

score 1 · Accepted Answer

Regexp :: Assembleを使用すると、複数の正規表現を1つに組み合わせて、一致を高速化できます。

以下はモジュールの説明からです

Regexp :: Assembleは、任意の数の正規表現を受け取り、それらを1つの正規表現（またはRE）にアセンブルします。これは、個々のREが一致するすべてに一致します。

その結果、ループする式の大規模なリストを用意する代わりに、ターゲット文字列を1つの式に対してテストするだけで済みます。これは、処理するパターンが数千ある場合に興味深いものです。可能な限り最小のパターンを作成するために真剣な努力が払われています。

元のパターンを追跡することもできるので、組み立てられたパターンを形成するソースパターンの中で、一致が発生した原因はどれであるかを判断できます。

score 1 · Accepted Answer

ログパーサーを再設計することをお勧めします。私が間違っているかもしれませんが、ログファイルで発生する可能性のあるすべてのケースを一致させようとしていると思います。

字句パーサーと構文パーサーを使用してみてください。申し訳ありませんが、Perl の良いサンプルはわかりませんが、Parse::Yappのようなものです。

regex - 正規表現マッチングを高速化しますか?

4 に答える 4

Related

Reference