9

私は一連のレビューを取得し、WEKAで使用するためにそれらをARFF形式に変換しようとしています。残念ながら、私はフォーマットがどのように機能するかを完全に誤解しているか、すべての可能な単語の属性を持っている必要があり、次にプレゼンスインジケーターが必要です。誰かがより良い方法を知っていますか、または理想的にはサンプルARFFファイルを持っていますか?

4

2 に答える 2

4

レビューをプレーン テキスト ファイルとさまざまなフォルダー (この場合はポジティブとネガティブ) に保存する場合は、TextDirectoryLoader を使用できます。

これは、Weka の KnowledgeFlow アプリケーションまたはコマンド ラインから見つけることができます。詳細はこちら: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

于 2011-05-29T09:35:32.890 に答える
3

解決するのにしばらく時間がかかりましたが、このinput.arffを使用すると:

@relation text_files

@attribute review string
@attribute sentiment {0, 1}

@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0

そして、このコマンド:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff

以下が生成されます。

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'

@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric

@data

{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
于 2011-05-28T16:04:22.987 に答える