例:
Doc {
引用: {
0: cite0,
1: cite1,
2: cite2,
...
n: citeN
}
}
引用の類似性に基づいてドキュメントをクラスター化すると想定していますが、各ドキュメントには多くの引用があります。ここでの私の混乱は...この場合、データセットの特徴ベクトルを構築して、それをクラスタリング ツールキットにフィードするにはどうすればよいかということです。
列を引用とし、その文書にその引用がある場合は値を 1 にしようと考えています。
ps。私の機械学習のバックグラウンドはかなり弱いです - 私は講義ノートを読んでいますが、ほとんどはこの種の問題には触れていません >< よろしくお願いします!