巨大なファイル (3.5GB、300K 行、300K ドキュメント) にあるドキュメントの大規模なコーパスを、1 行に 1 つのドキュメントで分析しようとしています。このプロセスでは、索引付けに Lucene を使用し、前処理に Lingpipe を使用しています。
問題は、ドキュメント内の非常にまれな単語を削除したいということです。たとえば、ある単語がコーパス (巨大なファイル) 内で MinDF 回未満しか出現しない場合、その単語を削除したいと考えています。
私は Lucene でそれを試すことができます: すべての個別の用語の文書頻度を計算し、それらを昇順に並べ替え、DF が MinDF よりも低い用語を取得し、巨大なファイルをもう一度調べて、これらの用語を行ごとに削除します。
このプロセスは非常に遅くなります。Javaを使用してこれを行うより簡単な方法を知っている人はいますか?
よろしく