私はpythonとscikit-learnの両方が初めてなので、ご容赦ください。
k means clustering からk means clustering アルゴリズムのこのソース コードを取得しました。
次に、load_file 関数を使用してローカル セットで実行するように変更しました。
アルゴリズムは終了しますが、どのドキュメントがクラスター化されているかなどの出力は生成されません。
km オブジェクトには、各ドキュメントのセントロイド ID をリストする「km.label」配列があることがわかりました。
また、「km.cluster_centers_」の重心ベクトルもあります。
しかし、それは何の文書ですか?「束」オブジェクトである「データセット」にマップする必要があります。
dataset.data[0] を印刷すると、シャッフルされたと思われる最初のファイルのデータが取得されます。でも名前だけ知りたい。
Does the document at dataset.data[0] is clusterd to centoid at km.label[0] ? のような質問に混乱しています
私の基本的な問題は、どのファイルが一緒にクラスター化されているかを見つけることです。それを見つける方法は?