私は、いくつかの顧客属性(人口統計、過去の購入カテゴリなど)に従って、企業の顧客ベースの購買習慣をより正確に予測することを目指しています。前回の購入からの時間間隔(この調査の従属変数)といくつかの属性(連続およびカテゴリの両方)を含む、約100,000人のリピーターのデータセットがあります。
購入間の可能性のある時間間隔を理解するのに役立つように、各セグメント(観測全体で同様の時間間隔を持つと定義されたセグメント)で生存分析を行うことを計画しています。私が直面している問題は、これらのセグメントをどのように最適に定義するかです。つまり、時間間隔がセグメント間で十分に異なり、セグメント内で類似しているような属性のグループ化。決定木を構築することがこれを行うための最良の方法であると私は信じています。再帰的パーティショニングを使用すると思います。
私はRに不慣れで、party
パッケージのmob
コマンドをいじくり回しましたが、モデルに含める変数とパーティション化に含める変数(コマンド:mob(y ~ x1 + ... + xk | z1 + ... + zk)
、x
モデル変数でありz
、パーティションである)に混乱しています。属性のセットからツリーを構築したいだけなので、それらすべてにパーティションを作成したいと思いますか?わからない。このコマンドも試しましたrpart
が、cpレベルに応じて、ツリーがないか、数十万のノードを持つツリーが取得されます。
誰か提案があれば、私はそれをいただければ幸いです。小説をお詫びし、助けてくれてありがとう。