1

例:

Doc {
  引用: {
      0: cite0,
      1: cite1,
      2: cite2,
      ...
      n: citeN
    }
}

引用の類似性に基づいてドキュメントをクラスター化すると想定していますが、各ドキュメントには多くの引用があります。ここでの私の混乱は...この場合、データセットの特徴ベクトルを構築して、それをクラスタリング ツールキットにフィードするにはどうすればよいかということです。

列を引用とし、その文書にその引用がある場合は値を 1 にしようと考えています。

ps。私の機械学習のバックグラウンドはかなり弱いです - 私は講義ノートを読んでいますが、ほとんどはこの種の問題には触れていません >< よろしくお願いします!

4

1 に答える 1