Python でニュース アグリゲーターを作成しようとしています。ニュース記事を取得し、用語とドキュメントの行列を作成してから、scipyとfasclusterモジュールを使用してコサイン類似度を使用してそれらをクラスター化します。
distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")
約 30 のニュース ソースがある場合に最適です。しかし、約 70 の異なるソースを配置した時点では、うまくクラスター化されません。term-document マトリックスを正規化しようとしましたが、tf-idf マトリックスも試しましたが、それでも同じ結果が得られました。どうすればこの問題を解決できますか?