人々がまれなイベントの検出に使用するアルゴリズムへの良い参照はありますか? また、時間要素はどのように考慮されますか? 連続するデータ ポイントが何か (t_1 から t_n) を伝えるケースがある場合、これを通常の機械学習シナリオにどのように織り込むことができますか?
任意のポインタをいただければ幸いです。
人々がまれなイベントの検出に使用するアルゴリズムへの良い参照はありますか? また、時間要素はどのように考慮されますか? 連続するデータ ポイントが何か (t_1 から t_n) を伝えるケースがある場合、これを通常の機械学習シナリオにどのように織り込むことができますか?
任意のポインタをいただければ幸いです。
シナリオを詳しく説明すると役立つ場合があります。あなたはまれな事象を見つけようとしているので、私はあなたがまれではないという実用的な定義を持っていると思います(いくつかの問題空間ではこれは本当に難しいです)。
たとえば、あるサービスのCPU使用率など、ランダムウォークプロセスではないプロセスがあるとします。まれなイベントを検出したい場合は、平均使用率を取得してから、いくつかの標準偏差を調べることができます。ここでは、統計的プロセス制御の手法が役立ちます。
株価などのランダムウォークプロセスがある場合(ワームの缶が開かれています...簡単にするためにこれを想定してください)。tからt+1への方向の動きはランダムです。ランダムイベントは、単一の方向への特定の数の連続した移動、または単一のタイムステップでの単一の方向への大きな移動である可能性があります。基礎となる概念については、確率解析を参照してください。
ステップtのプロセスがステップt-1のみに依存している場合、マルコフ連鎖を使用してプロセスをモデル化できます。
これはあなたが利用できる数学的手法の短いリストです。次に、機械学習に移ります。なぜ機械学習を使いたいのですか?(問題を過度に複雑にしないように常に考えるのは良いことです)あなたがそうし、それが正しい解決策であると仮定しましょう。使用する実際のアルゴリズムは、この段階ではそれほど重要ではありません。あなたがする必要があるのは、まれなイベントが何であるかを定義することです。逆に、通常のイベントとは何かを定義し、通常ではないものを探すことができます。これらは同じものではないことに注意してください。まれなイベントr1...rnのセットを生成するとします。これらのまれなイベントにはそれぞれ、いくつかの機能が関連付けられています。たとえば、コンピュータに障害が発生した場合、ネットワーク上で最後に表示された時刻、スイッチポートのステータスなどの機能が存在する可能性があります。これは実際には機械学習の最も重要な部分です。トレーニングセットの建設。これは通常、モデルをトレーニングするための一連の例を手作業でラベル付けすることで構成されます。機能空間をよりよく理解すると、ラベルを付けるために別のモデルをトレーニングできる場合があります。満足するまでこのプロセスを繰り返します。
これで、まれなイベントセットを定義できる場合は、ヒューリスティックを生成する方が安価な場合があります。まれなイベントを検出するために、私は常にこれがより適切に機能することを発見しました。