machine-learning - 機械学習プラットフォームの選択

Question

ユーザーとそのローン返済指標 (かかった時間、分割回数など) のデータセットがあります。ここで、ユーザーの過去のローン履歴を分析して、「X をローンした場合、彼らは Y 回の分割払いで Z 日かけて返済する可能性が高い」と言いたいと考えています。

これが私の見解です

アルゴリズムは、返済習慣に従ってすべてのユーザーをグループ化するクラスタリングアルゴリズムです。
SOM または K-Means を使用したい

私の質問は、これに適したプラットフォームはどれですか? これまでにMahoutを見てきました。

score 2 · Accepted Answer

Wekaは一見の価値があります。Wekaはかなり成熟したオープンソースツールキットであり、多数の機械学習アルゴリズムとクラスタリングが含まれています。

score 2 · Accepted Answer

RapidMiner - 無料で利用できるコミュニティエディション - 使いやすい - 優れた視覚化

http://rapid-i.com/content/view/181/190/

score 0 · Accepted Answer

このトピックに関する素晴らしい本があります - Toby Segaran による" Programming Collective Intelligence " です。さまざまな機械学習アルゴリズム、クラスタリングなどについて説明しています。便利なライブラリやサンプルコードへのリンクも含まれています。

score 0 · Accepted Answer

もう 1 つの優れたライブラリは、Python プログラマー向けの機械学習ライブラリであるscikits.learnです。

score 0 · Accepted Answer

クラスタリングを行う理由クラスタリングの問題のようには見えません。ユーザーのいくつかのグループを区別するための前処理フェーズとしてクラスター分析を行うことができます (または、このフェーズを省略できます)。ただし、何らかの数値予測を行う必要があります。クラスタリングでこれらの数値を取得しますか?

このタスクには回帰を使用することをお勧めします。線形回帰はニーズに適合する必要があります。従属変数 (分割払いの回数と日数) が他の属性に非線形的に依存する場合は、多項式回帰またはM5' のようなアルゴリズムを試すことができます。これは、最初に決定木を構築し、次にその木の各葉に回帰モデルを追加します。

数値以外の属性がある場合は、分類を使用することもできます。この場合、可能なクラスを手動で作成する必要があります (例: 分割回数: 3 から 5、6 から 10 など)。分類アルゴリズム (C4.5、SVM、単純ベイズなど)。

実際、あなたが大量のデータを持っているとは思いません。全体で 50Mb 未満の場合は、非常に大量のデータを処理するように設計された Mahout のようなモンスターを使用する必要はないと思います。この目的には、WekaまたはRapidMinerを使用できます。デフォルトの構成でデータを処理できない場合でも、JVM のメモリを増やすだけで、99% の場合は問題ありません。

machine-learning - 機械学習プラットフォームの選択

5 に答える 5

Related

Reference