私は 20 個の属性セットを持っていますが、そのうちのいくつかは、米国の州のコード、サブスクリプション プランの名前などの文字列です。決定木を構築するためにWEKAで文字列属性をどのように処理できますか?
stringtowordvector コンバーターについて読みましたが、これらの各属性の文字列は単語そのものです。
私は 20 個の属性セットを持っていますが、そのうちのいくつかは、米国の州のコード、サブスクリプション プランの名前などの文字列です。決定木を構築するためにWEKAで文字列属性をどのように処理できますか?
stringtowordvector コンバーターについて読みましたが、これらの各属性の文字列は単語そのものです。
あなたはおそらくこれを理解したでしょう -- そのような「文字列属性」 (実際の文字列属性は WEKA では別のものです) を公称属性として宣言する必要があります。
ARFF ファイルで次のスキーマに従って属性を宣言するだけです。
@attribute <att_name> string
Strings
文字列テーブルに内部的に格納され、そのテーブル内のアドレスで表されるため注意してください。したがって、同じ文字を含む 2 つの文字列は同じ値になります。
出典(本):データマイニング:実用的な機械学習ツールとテクニック第3版