5

入力ファイルから各行の n グラムを含むインデックスを作成したいと思います。これは次のようになります。

Segeln bei den Olympischen Sommerspielen
Erdmond
Olympische Spiele
Turnen bei den Olympischen Sommerspielen
Tennis bei den Olympischen Sommerspielen
Geschichte der Astronomie

インデックスを検索したいので n-gram が必要ですが、検索用語に多くの入力エラーがあると想定する必要があります。たとえば、「schichte astrologie」という用語で検索すると、「Geschichte der Astronomie」が見つかります。可能な限り最高のマッチのリスト、たとえばベスト 10 のマッチを提供できればさらに良いでしょう。n-gram を使用するよりもこれを達成するためのより良い方法がある場合、またはインデックスの作成方法とクエリ方法のヒントがある場合は、正しい方向に向けていただければ幸いです。その方法を理解するのに役立つ例があれば、とてもうれしく思います。現在、lucene 4.3.1 を使用しています。コマンドラインでインデックスを作成するのではなく、Javaで実装することをお勧めします。

4

1 に答える 1