6

ユーザーとそのローン返済指標 (かかった時間、分割回数など) のデータセットがあります。ここで、ユーザーの過去のローン履歴を分析して、「X をローンした場合、彼らは Y 回の分割払いで Z 日かけて返済する可能性が高い」と言いたいと考えています。

これが私の見解です

  1. アルゴリズムは、返済習慣に従ってすべてのユーザーをグループ化するクラスタリング アルゴリズムです。
  2. SOM または K-Means を使用したい

私の質問は、これに適したプラットフォームはどれですか? これまでにMahoutを見てきました。

4

5 に答える 5

2

Wekaは一見の価値があります。Wekaはかなり成熟したオープン ソース ツールキットであり、多数の機械学習アルゴリズムとクラスタリングが含まれています。

于 2011-01-27T17:29:59.793 に答える
2

RapidMiner - 無料で利用できるコミュニティ エディション - 使いやすい - 優れた視覚化

http://rapid-i.com/content/view/181/190/

于 2011-10-16T17:40:27.937 に答える
0

このトピックに関する素晴らしい本があります - Toby Segaran による" Programming Collective Intelligence " です。さまざまな機械学習アルゴリズム、クラスタリングなどについて説明しています。便利なライブラリやサンプル コードへのリンクも含まれています。

于 2011-10-16T17:57:07.970 に答える
0

もう 1 つの優れたライブラリは、Python プログラマー向けの機械学習ライブラリであるscikits.learnです。

于 2011-02-08T08:34:38.830 に答える
0

クラスタリングを行う理由 クラスタリングの問題のようには見えません。ユーザーのいくつかのグループを区別するための前処理フェーズとしてクラスター分析を行うことができます (または、このフェーズを省略できます)。ただし、何らかの数値予測を行う必要があります。クラスタリングでこれらの数値を取得しますか?

このタスクには回帰を使用することをお勧めします。線形回帰はニーズに適合する必要があります。従属変数 (分割払いの回数と日数) が他の属性に非線形的に依存する場合は、多項式回帰またはM5' のようなアルゴリズムを試すことができます。これは、最初に決定木を構築し、次にその木の各葉に回帰モデルを追加します。

数値以外の属性がある場合は、分類を使用することもできます。この場合、可能なクラスを手動で作成する必要があります (例: 分割回数: 3 から 5、6 から 10 など)。分類アルゴリズム (C4.5、SVM、単純ベイズなど)。

実際、あなたが大量のデータを持っているとは思いません。全体で 50Mb 未満の場合は、非常に大量のデータを処理するように設計された Mahout のようなモンスターを使用する必要はないと思います。この目的には、WekaまたはRapidMinerを使用できます。デフォルトの構成でデータを処理できない場合でも、JVM のメモリを増やすだけで、99% の場合は問題ありません。

于 2011-10-16T18:29:36.737 に答える