0

私は単純な検索エンジンを作成しています。インデックスを作成するドキュメントを調べているときに、無視すべき単語 (「and」や「the」など) を自動的に識別したいと考えています。

私が考えることができる唯一の簡単な方法は、特定の長さまでの単語を無視することです (十分に長くない場合、それらはストップ ワードと見なされます)。他の方法では、おそらくデータ マイニングが必要になるでしょう (私は提案を受け付けています)。

ドキュメントを確認するときに使用できる方法を希望しますが、他の提案も受け付けています。簡単な方法が必要です。

4

1 に答える 1