1

エラーログがあり、各タイプのエラーの数を取得したいとします。エラー メッセージごとにグループ化して単純なカウントを既に実行しましたが、多くのメッセージにはコンテキスト固有の情報が含まれています。つまり、同じバグが原因であるにもかかわらず、メッセージ テキストで単純にグループ化することはできません。

イタリック体のセグメントがエラーのインスタンスごとに異なるいくつかの例:

  • ページ/primate/gorillaでユーザー188a9e12-6797-4d9b-8adf-4588b2435326 の結果を取得できませんでした
  • ページ/primate/monkeyでユーザー08c610d2-27d2-4f97-bf60-d5b3010e8dd6 の結果を取得できませんでした

ファジーロジックを使用して、そのようなメッセージをすべてグループ化したいと思います。レーベンシュタイン距離アルゴリズムがこのタイプの処理に価値があることは理解していますが、文字列の長さに対して重み付けされていないため、生の距離は価値がないと思います (1000 文字の文字列では、30 の距離はそれほど重要ではありません。 100の)。

したがって、私の目的は、メッセージのリストを繰り返し処理し、ある種のあいまいに一致したカウントを取得することです。あいまいに一致したメッセージごとにある種の一貫したキーを生成するという副次的な問題があるかもしれませんか? これについてどうすればいいですか?

4

1 に答える 1