1

いくつかのテキスト ファイルからデータセットを作成し、それらをフィーチャのベクトルとして記述しなければなりません。

このようなもの:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

ベクトルの各位置は単語を表し、スコアは TF-IDF のようなもので与えられます。

このためのライブラリ/ツール/何かを知っていますか? (ジャバの方がいい)

4

3 に答える 3

2

数日後、これに「最適なツール」である Word Vector Tool を見つけました。 http://sourceforge.net/projects/wvtool/

于 2010-06-14T07:27:11.007 に答える
0

マレット。TF-IDF、POS、分類を含む。

于 2010-05-27T13:31:56.637 に答える
0

確かにたくさんありますhttp://en.wikipedia.org/wiki/Lucene

でも

基本的な IR システムをゼロから作成することをお勧めします。ボンネットの下を見ることは、常に素晴らしい学習体験です。

于 2010-05-27T13:34:01.567 に答える