私は機械学習と分析を始めています。私のアプローチは、データを使ってすぐに飛び込み、必要に応じて方法やツールを学ぶことです。
チップが部屋に入ったときと出たときのタイムスタンプを取得できるように、一意の ID を持つ RFID チップを使用して部屋に出入りする人々の動きを記録する一連のイベント データがあります。部屋の内外の動きに基づいてチップ ID を分類したいと考えています。
例えば、
- 定期的に出入りするチップは、その部屋で働いている誰かのものである可能性があります。
- 入り込んで長時間留まるチップは、動き回る電子機器に属している可能性があります。
- 入口と出口のセットがほとんどまたは 1 つしかなく、しばらくして出入りするチップは、訪問者である可能性があります。
- 部屋にいる時間が短く、頻繁に訪問しないチップは、誰かが通りかかっている可能性があります。
これらは私の 4 つの主要なカテゴリです。
これまで、k-means クラスタリングを試してきました。各チップについて、特定のカテゴリを示すいくつかのパラメーターを計算します。部屋で過ごした平均時間、1 週間に見た日数、部屋で過ごした合計時間、および 1 日あたりの出入りの平均数です。
これで妥当な結果が得られましたが、使用するパラメータによって結果が大きく異なります。プロット上で生成したチップ パラメーターを見ると、分類にはさまざまなバリエーションがあります。良いトレーニング データがないため、最初に分類方法を試しました。
私は主に、使用するより良いアルゴリズムや手法について、または私のアプローチが間違っている場合でも、アドバイスを探しています。必要に応じてコードまたはダミー データを提供できますが、実際には良い方向性を探しているだけです。