いくつかのテキスト ファイルからデータセットを作成し、それらをフィーチャのベクトルとして記述しなければなりません。
このようなもの:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
ベクトルの各位置は単語を表し、スコアは TF-IDF のようなもので与えられます。
このためのライブラリ/ツール/何かを知っていますか? (ジャバの方がいい)
いくつかのテキスト ファイルからデータセットを作成し、それらをフィーチャのベクトルとして記述しなければなりません。
このようなもの:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
ベクトルの各位置は単語を表し、スコアは TF-IDF のようなもので与えられます。
このためのライブラリ/ツール/何かを知っていますか? (ジャバの方がいい)
数日後、これに「最適なツール」である Word Vector Tool を見つけました。 http://sourceforge.net/projects/wvtool/
マレット。TF-IDF、POS、分類を含む。
確かにたくさんありますhttp://en.wikipedia.org/wiki/Lucene
でも
基本的な IR システムをゼロから作成することをお勧めします。ボンネットの下を見ることは、常に素晴らしい学習体験です。