私はIR技術に不慣れです。
次のことを行うJavaベースのAPIまたはツールを探しています。
- 指定されたURLのセットをダウンロードします
- トークンを抽出します
- ストップワードを削除する
- ステミングを実行する
- 転置インデックスの作成
- TF-IDFを計算します
Luceneがどのように役立つかを教えてください。
よろしくYuvi
Word Vector Toolを試すことができます。最新のリリースからしばらく経ちましたが、ここでは問題なく動作します。あなたが言及したすべてのステップを実行できるはずです。ただし、クローラー部分を自分で使用したことはありません。
実際、TF-IDFは、ドキュメント全体ではなく、ドキュメント内の用語に与えられたスコアです。ドキュメント内の用語ごとの TF-IDF だけが必要な場合は、Lucene に触れずにこのメソッドを使用してください。検索エンジンを作成する場合は、もう少し処理を行う必要があります (指定された URL からテキストを抽出するなど、対応するドキュメントには生のテキストが含まれていない可能性があります)。この場合は、Solrの使用を検討してください。