TFIdf(項頻度、逆ドキュメント頻度)を計算し、このステップの後、LSI、カイ2乗検定などの方法を使用して、MyMatrixの次元を減らす必要があることを確認しました。
行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリまたはこれを行う方法を説明するチュートリアルがある場合は、教えてください
TFIdf(項頻度、逆ドキュメント頻度)を計算し、このステップの後、LSI、カイ2乗検定などの方法を使用して、MyMatrixの次元を減らす必要があることを確認しました。
行列TFIDFの次元削減のためにJavaでカイ二乗検定を実装する方法がわかりません。これを行うためのライブラリまたはこれを行う方法を説明するチュートリアルがある場合は、教えてください
LSA、LDAにはgensimsライブラリを使用します。大規模なデータセットに対して実質的にLSAを実行できます。コーパス全体を一度にメモリにロードするのではなく、遅延読み取りを実行します。
カイ二乗はしたくないと思います。これは次元削減の手法ではありません。
あなたがしたいのはSVD、または特異値分解です。これが、LSI/LSAで次元削減に使用されている手法です。
ウィキペディアでは、JavaのLSAに「S-SpacePacakage」というライブラリを使用することを提案しています。私自身は使ったことがありませんが、調べてみてください。