Lucene で頻出フレーズをいくつか取得したいと思います。TXT ファイルから情報を取得していますが、フレーズの情報がないために多くのコンテキストが失われています。たとえば、「情報検索」は 2 つの別個の単語として索引付けされています。
このようなフレーズを取得する方法は何ですか? 私はインターネット上で役立つものを見つけることができません.すべてのアドバイス、リンク、ヒント、特に例は大歓迎です!
編集:タイトルとコンテンツだけでドキュメントを保存します:
Document doc = new Document();
doc.add(new Field("name", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("text", fReader, Field.TermVector.WITH_POSITIONS_OFFSETS));
私がやっていることにとって最も重要なのはファイルの内容だからです。タイトルがまったく説明的でないことがあまりにも多い (たとえば、タイトルがコードまたは数字である PDF 学術論文がたくさんある)。
テキスト コンテンツから上位に出現するフレーズをインデックス化する必要がどうしてもありますが、この単純な「単語の袋」アプローチがいかに効率的でないかがわかりました。