cluster-analysis - クラスターを学習するための特徴ベクトルの構築

翻译自：https://stackoverflow.com/questions/15038192 2013-02-23T07:21:03.317

886 次

例：

Doc {
  引用: {
      0: cite0,
      1: cite1,
      2: cite2,
      ...
      n: citeN
    }
}

引用の類似性に基づいてドキュメントをクラスター化すると想定していますが、各ドキュメントには多くの引用があります。ここでの私の混乱は...この場合、データセットの特徴ベクトルを構築して、それをクラスタリングツールキットにフィードするにはどうすればよいかということです。

列を引用とし、その文書にその引用がある場合は値を 1 にしようと考えています。

ps。私の機械学習のバックグラウンドはかなり弱いです - 私は講義ノートを読んでいますが、ほとんどはこの種の問題には触れていません >< よろしくお願いします!

1 に答える 1