サポート ベクター マシンと組み合わせた凝集クラスタリング アルゴリズムを実装したいと考えています。私がそれを機能させたい方法は次のようなものです:
大量のトレーニング データを使用して、サポート ベクター マシン分類器をトレーニングします。トレーニング済みのモデルは脇に置いておきます。トレーニング データは、実際にはエンティティのペアの大規模なセットです。各エンティティは数値の配列 (double) です。SVM は、指定されたペアを同じ/異なるものとして分類します。
エンティティの大規模なセット (基本的に double 値の配列) が与えられた場合、トレーニング済みの SVM を使用して、指定されたエンティティのペアを同一/異なるものとして分類することにより、最も近い 2 つのエンティティ (配列) を見つけます。それらが同じである場合は、先に進んでそれらをクラスター化します。
クラスタ内のすべてのエンティティが別のクラスタ内の他のすべてのエンティティとペアにできることがわかる限り、凝集クラスタリング メカニズムを続行します。
1 つのクラスターに少なくとも 1 つのエンティティが存在し、他のクラスターに別のエンティティが存在する 2 つのクラスターが存在することがわかったら、凝集クラスタリング メカニズムを終了します。
出力クラスタを出力に出力/保存します。
今、スタンドアロン マシンで WEKA の SVM と凝集クラスタラーを使用して、これらすべてを実行しました。ビッグデータに関しては、Hadoop の上でこれを行う必要があります。SVM を含む Mahout は知っていますが、HAC は含まれていません。
私。Hadoop で WEKA を使用することは可能ですか? ii. 自分で Hadoop で HAC を作成する予定がある場合、トレーニング済みの SVM モデルを HDFS に保存し、それを凝集クラスタリングに使用するにはどうすればよいですか? Hadoop フレームワークに精通しています。