類似性プログラムにストップ ワードを入れてから、ステマーを入れようと考えています (ポーター 1 または 2 を使用するかどうかは、実装が最も簡単かどうかによって異なります)。
ファイルからテキストを行全体として読み取り、それらを長い文字列として保存するので、2つの文字列を取得した場合、ex.
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
その弦を手に入れた今
ステミング: ステマー アルゴリズムを直接使用し、文字列として保存してから、プログラムにステマーを実装する前に行ったように、one.stem(); を実行するなどして、類似性に関する作業を続けることはできますか? ものの種類?
ストップ ワード: これはどのように機能しますか? 私はただ使っていますか?one.replaceall("私", ""); または、このプロセスに使用する特定の方法はありますか? 類似性アルゴリズムを使用して類似性を取得する前に、文字列の操作を続けて文字列を取得したいと考えています。ウィキは多くを語らない。
あなたが私を助けてくれることを願っています!ありがとう。
編集:学校関連のプロジェクトで、異なるアルゴリズム間の類似性に関する論文を書いているため、lucene や他のライブラリを使用することは許可されていないと思います。さらに、Lucene などのライブラリを使い始める前に、それがどのように機能するかを試して理解したいと思います。あまりご迷惑をお掛けしませんように(^^)