複数のドキュメントのベクトル空間表現を抽出し、それらの間のコサイン距離を計算する必要があります。
その距離を使用して、k-Nearest-Neighbor アプローチを使用していくつかの新しいドキュメントを分類したいと思います。
私が使用できるライブラリについて何か提案はありますか?
これまでのところ、Weka と Apache Lucene の両方がベクトル空間モデルをサポートする必要があることがわかりましたが、どちらが私のニーズに最も適していると思いますか?
複数のドキュメントのベクトル空間表現を抽出し、それらの間のコサイン距離を計算する必要があります。
その距離を使用して、k-Nearest-Neighbor アプローチを使用していくつかの新しいドキュメントを分類したいと思います。
私が使用できるライブラリについて何か提案はありますか?
これまでのところ、Weka と Apache Lucene の両方がベクトル空間モデルをサポートする必要があることがわかりましたが、どちらが私のニーズに最も適していると思いますか?