2

特定のユーザーに対して発生した特定のイベントのカウントであるいくつかの観測があります。例えば

        login_count logout_count
user1            5            2
user2           20           10
user3           34            5

これらの変数を他の多くの変数と一緒に PCA にフィードしたいと思います。たとえば、カウントを直接操作する (列をスケーリングする) か、パーセンテージを操作する (後で列をスケーリングする) かを考えています。

       login_count logout_count
user1         0.71         0.28
user2         0.66         0.33
user3         0.87         0.13

データを表現するより良い方法はどれですか?

ありがとう

4

1 に答える 1

1

データから抽出する情報によって異なります。

相関関係がある場合はlogin=p*logout、最初のものを使用します。もう 1 つは、100% の確率でログインし (それが user1 だとどうしてわかるでしょうか?)、おそらく 28% の確率でログアウトする必要があるため、少し奇妙です。1-login_procent_i=logout_procent_iまた、前処理の前後に完全な相関関係を与える依存関係もあります。

于 2012-11-15T07:33:37.297 に答える