クラスタリングを行う理由 クラスタリングの問題のようには見えません。ユーザーのいくつかのグループを区別するための前処理フェーズとしてクラスター分析を行うことができます (または、このフェーズを省略できます)。ただし、何らかの数値予測を行う必要があります。クラスタリングでこれらの数値を取得しますか?
このタスクには回帰を使用することをお勧めします。線形回帰はニーズに適合する必要があります。従属変数 (分割払いの回数と日数) が他の属性に非線形的に依存する場合は、多項式回帰またはM5' のようなアルゴリズムを試すことができます。これは、最初に決定木を構築し、次にその木の各葉に回帰モデルを追加します。
数値以外の属性がある場合は、分類を使用することもできます。この場合、可能なクラスを手動で作成する必要があります (例: 分割回数: 3 から 5、6 から 10 など)。分類アルゴリズム (C4.5、SVM、単純ベイズなど)。
実際、あなたが大量のデータを持っているとは思いません。全体で 50Mb 未満の場合は、非常に大量のデータを処理するように設計された Mahout のようなモンスターを使用する必要はないと思います。この目的には、WekaまたはRapidMinerを使用できます。デフォルトの構成でデータを処理できない場合でも、JVM のメモリを増やすだけで、99% の場合は問題ありません。