2

このように要約できるクラスタリングの問題があります。

  • 3D空間にN個の粒子があります
  • 各粒子は、異なる数の他の粒子と相互作用することができます
  • それぞれの相互作用には強みがあります
  • 事前にクラスターの数がわかりません
  • 学習サンプルがありません(教師なしである必要があります)

出力:取得したい:

  • クラスターの数
  • 各パーティクルがクラスターの一部になる確率(明確に割り当てられていないパーティクルを削除できるようにするため)
  • Javaコードから直接clustererを呼び出したい。

質問:

  • どのクラウラーが私の問題に最も適していますか?
  • データをどのようにフォーマットすればよいですか?
  • インタラクション情報を補完するために3Dポジショニング情報を使用する必要がありますか?
  • 各パーティクルの結果を取得するにはどうすればよいですか?

私はwekaを初めて使用しますが、インターネットで見つけたものから:

  • SOMは私の問題を解決することができます
  • これはマルチインスタンスの問題ですが、リレーショナルデータの作成方法を示す例を見つけることができました。SOMはリレーショナル属性をサポートしていますか?

ご協力いただきありがとうございます。jeannot

4

2 に答える 2

4

クラスタリングに関しては、Wekaは非常に「制限」されています。クラスタリングアルゴリズムはごくわずかであり、非常に限られています。相互作用の強さをWekaクラスタリングアルゴリズムのいずれかに組み込むことができるかどうかはわかりません。

ELKIをご覧になることをお勧めします。Wekaよりもはるかに高度なクラスタリングアルゴリズムを備えており、非常に柔軟性があります。たとえば、独自の距離関数(チュートリアル)を簡単に定義して、距離ベースのクラスタリングアルゴリズムで使用できます。

適切なクラスタリングアルゴリズムを選択することは、ここで答えることはできません。いくつか試して、さまざまなパラメータを試す必要があります。最初に答える必要がある重要な質問は、次のとおりです。あなたにとって有用なクラスターは何ですか?

あなたはこれらの質問のいくつかを提起し始めました。たとえば、相互作用の強さのみを使用するか、位置情報も含めるかどうかなどです。しかし、私はあなたが何を達成したいのかわからないので、どのようにあなたに言うことができません。

DBSCANおよびOPTICSアルゴリズムを必ず確認してください(特にOPTICSの場合、Wekaのアルゴリズムは使用しないでください。低速で、不完全で、保守されていません!)。それがあなたの仕事に意味があるなら、たぶん彼らのウィキペディアの記事を読み始めてください。これが私が彼らがあなたに役立つと信じる理由です:

  • クラスターの数を知る必要はありません(k-meansやEMクラスタリングとは異なります)
  • それらには、本質的に「最小クラスターサイズ」である「最小ポイント」パラメーターが必要です。結果がどの程度きめ細かくなるかを制御します。クラスターをより少なく、より大きくするには、それを増やします。
  • それらは、任意の距離または類似度関数(たとえば、相互作用の強さ)を使用できます。DBSCANの場合、重要と見なすためのしきい値を設定する必要があります。OPTICSの場合、これは必要ありません。

次に、OPTICSとの相互作用強度データを使用し、ユースケースに意味がある場合は、クラスターのXi抽出を試してみます。(WekaにはXi抽出機能がありません)。または、最初にOPTICSプロットを見て、類似性とMinPtsパラメーターが実際にOPTICSに必要な「谷」を生成するかどうかを確認します。DBSCANの方が高速ですが、距離のしきい値を修正する必要があります。データセットが非常に大きい場合は、サンプルでOPTICSから始めて、いくつかのイプシロン値を決定し、これらの値を使用して完全なデータセットでDBSCANを実行することをお勧めします。

それでも、ここを読み始めて、それがあなたのタスクに意味があるかどうかを確認してください。

https://en.wikipedia.org/wiki/DBSCAN#Basic_idea

于 2012-05-06T14:50:10.670 に答える
0

WEKAのARFFファイル形式に従ってデータを準備している場合は、WEKAエクスプローラーの[クラスター]タブを使用できます。これにより、データがクラスター化され(教師なし)、各クラスターの各機能値のしきい値も提供されます。教師なし学習に非常に便利です。

于 2012-05-09T20:06:21.950 に答える