1

次のようなシステムによって生成されるデータのストリーム(3D位置など)があります。

(pos1, time1) (pos2, time2) (pos3, time3) ...

機械学習技術を使用して、特定のイベントの可能性を特定のデータ ストリームから推定 (または検出) したいと考えています。私がやった事:

  1. イベントがそのフレームで発生した場合は、すべてのフレームでデータに YES のタグを付けました。それ以外の場合は、NO に設定されます。

(pos1, time1, NO) (Pos2, time2, Yes) (pos3, time3, NO) ...(posK, timeK, Yes)...

  1. Lのようなウィンドウの長さを設定して、L個の連続したフレームを与えてモデルをトレーニングします。対応するタグは、そのウィンドウの最後の要素のタグによって設定されます。

(pos1、Pos2、pos3、NO) (pos2、Pos3、pos4、NO) (pos3、Pos4、pos5、NO) ... (posK-2、PosK-1、posK、YES) ...

  1. 最後に、このセットでモデルをトレーニングしました。
  2. テストでは、 L個の連続するフレームを連結し、モデルにこのデータ セットに対応するタグ (YES または NO など) を見つけるように依頼します。

「YES」よりも「NO」のほうがはるかに多いことがわかります。システムがほとんどアイドル状態にあり、イベントがないためです。そのため、トレーニングに影響を与えます。

ヒントを教えてください。1) この問題に最適な機械学習モデルのタイプはどれですか。2)現時点では、出力を「YES」または「NO」に分類していますが、いつでもイベントが発生する確率を知りたいです。どのようなモデルをお勧めしますか?

ありがとう

4

1 に答える 1

1

ここには、実際には 2 つの質問があると思います。データセットを構築する方法と、どの予測子を使用するかです。

データセットを構築するために、ある時点iで、 iの前に発生するインスタンスを選択するようにしてください(質問の言い回しにより、iを含むものを選択しているように見えます)。ただし、結果のラベルはiのラベルにする必要があります。結局のところ、あなたは現在に基づいて未来を予測しようとしていますよね? 現在に基づいて現在を予測するのはかなり簡単です。

もう 1 つのポイントは、どのようにを選択するか、または単一のを選択するかどうかです。のさまざまな値を選択すると、多変量モデルが得られることに注意してください。

最後に、あなたが直接尋ねた質問は、どの予測子を使用するかです。これは、データセットを知らずに(そしてそれで遊んで)答えるには広すぎます。バイアスと分散のトレードオフについて読んで、問題に対して「最適な」予測子が存在しない理由を確認することをお勧めします。

そうは言っても、 (あなたが尋ねたように)確率も出力するシンプルで堅牢な分類器であるロジスティック回帰から始めることをお勧めします。

于 2016-03-26T19:57:53.223 に答える