java - 文字列属性を持つ WEKA ディシジョンツリー

Question

私は 20 個の属性セットを持っていますが、そのうちのいくつかは、米国の州のコード、サブスクリプションプランの名前などの文字列です。決定木を構築するためにWEKAで文字列属性をどのように処理できますか?

stringtowordvector コンバーターについて読みましたが、これらの各属性の文字列は単語そのものです。

score 1 · Accepted Answer

あなたはおそらくこれを理解したでしょう -- そのような「文字列属性」 (実際の文字列属性は WEKA では別のものです) を公称属性として宣言する必要があります。

score 0 · Accepted Answer

ARFF ファイルで次のスキーマに従って属性を宣言するだけです。

@attribute <att_name> string

Strings文字列テーブルに内部的に格納され、そのテーブル内のアドレスで表されるため注意してください。したがって、同じ文字を含む 2 つの文字列は同じ値になります。

出典（本）：データマイニング：実用的な機械学習ツールとテクニック第3版

java - 文字列属性を持つ WEKA ディシジョン ツリー