クラスタリングに関しては、Wekaは非常に「制限」されています。クラスタリングアルゴリズムはごくわずかであり、非常に限られています。相互作用の強さをWekaクラスタリングアルゴリズムのいずれかに組み込むことができるかどうかはわかりません。
ELKIをご覧になることをお勧めします。Wekaよりもはるかに高度なクラスタリングアルゴリズムを備えており、非常に柔軟性があります。たとえば、独自の距離関数(チュートリアル)を簡単に定義して、距離ベースのクラスタリングアルゴリズムで使用できます。
適切なクラスタリングアルゴリズムを選択することは、ここで答えることはできません。いくつか試して、さまざまなパラメータを試す必要があります。最初に答える必要がある重要な質問は、次のとおりです。あなたにとって有用なクラスターは何ですか?
あなたはこれらの質問のいくつかを提起し始めました。たとえば、相互作用の強さのみを使用するか、位置情報も含めるかどうかなどです。しかし、私はあなたが何を達成したいのかわからないので、どのようにあなたに言うことができません。
DBSCANおよびOPTICSアルゴリズムを必ず確認してください(特にOPTICSの場合、Wekaのアルゴリズムは使用しないでください。低速で、不完全で、保守されていません!)。それがあなたの仕事に意味があるなら、たぶん彼らのウィキペディアの記事を読み始めてください。これが私が彼らがあなたに役立つと信じる理由です:
- クラスターの数を知る必要はありません(k-meansやEMクラスタリングとは異なります)
- それらには、本質的に「最小クラスターサイズ」である「最小ポイント」パラメーターが必要です。結果がどの程度きめ細かくなるかを制御します。クラスターをより少なく、より大きくするには、それを増やします。
- それらは、任意の距離または類似度関数(たとえば、相互作用の強さ)を使用できます。DBSCANの場合、重要と見なすためのしきい値を設定する必要があります。OPTICSの場合、これは必要ありません。
次に、OPTICSとの相互作用強度データを使用し、ユースケースに意味がある場合は、クラスターのXi抽出を試してみます。(WekaにはXi抽出機能がありません)。または、最初にOPTICSプロットを見て、類似性とMinPtsパラメーターが実際にOPTICSに必要な「谷」を生成するかどうかを確認します。DBSCANの方が高速ですが、距離のしきい値を修正する必要があります。データセットが非常に大きい場合は、サンプルでOPTICSから始めて、いくつかのイプシロン値を決定し、これらの値を使用して完全なデータセットでDBSCANを実行することをお勧めします。
それでも、ここを読み始めて、それがあなたのタスクに意味があるかどうかを確認してください。
https://en.wikipedia.org/wiki/DBSCAN#Basic_idea