私はWekaを初めて使用し、EEGデータを分類するための分類器を構築しようとしています。EEG属性データは、記録された5分間の生信号とその他の属性です。インスタンスに5分の生信号のベクトル入力があることをWEKAarffファイル形式で指定するにはどうすればよいですか?
例えば:
Num. -- raw -- class
1 -- [1,2,3,4,5,6] -- Relaxed
2 -- [2,3,4,5,6] --- Bored
raw属性ベクトルはどこにありますか。
私はWekaを初めて使用し、EEGデータを分類するための分類器を構築しようとしています。EEG属性データは、記録された5分間の生信号とその他の属性です。インスタンスに5分の生信号のベクトル入力があることをWEKAarffファイル形式で指定するにはどうすればよいですか?
例えば:
Num. -- raw -- class
1 -- [1,2,3,4,5,6] -- Relaxed
2 -- [2,3,4,5,6] --- Bored
raw属性ベクトルはどこにありますか。
あなたの問題について考えてください-あなたは何を分類/予測しようとしていますか、そしてそれをどのように最もよく表現することができますか?次の生のEEG読み取り値を予測したくない可能性があるため、時系列アプローチはおそらく重要ではありません。
Wekaは、固定された属性のセット(機能、値、つまり、事前定義された長さのベクトル)を持つインスタンス(データの行)のみを処理できます。持つことができる属性の可能なタイプは、nominal(たとえば、「赤」、「緑」、「青」)、numeric(任意の整数/浮動小数点値)、string(主にテキストマイニング用)です。およびdate。raw signalのベクトルを単一の属性として表す方法はありません。ドキュメントは次のとおりです:http ://weka.wikispaces.com/ARFF+%28stable+version%29
そうは言っても、インスタンスは次のようになります。
num,class1,reading_1,reading_2,reading_3 ... reading_n,relaxed,bored
ここreading_1で、は最初の生の読み取り値でありreading_n、5分の終わりの最後の読み取り値です。これは、生の測定値に基づいてクラスを予測するようにWEKAに要求するものであり、おそらくあまり効果的ではありません(測定値が互いに一致しない可能性があり、頻度などを気にせずに各測定値を個別に処理するためです。または相対的な平均)。
または、生データの前処理を行って、WEKAのほとんどの機械学習アルゴリズムに役立つようにすることもできます。この場合、重要な機能を決定してから作成する必要があります。大まかな例は次のとおりです。
num,class1,average,frequency,max_magnitude,standard_deviation,relaxed,bored
データをARFFファイルに入れる前に、データの平均や頻度などを計算した場所。次に、アルゴリズムは、予測の基礎となるデータセットのより有益な図を持っています。
しかし、さらに別の懸念は、あなたが何を代表しているのかということです。5分間のサンプル全体が同じクラスですか、それともその一部relaxedと一部のユーザーboredですか?この場合、おそらく2つのサンプルが必要です。1つはユーザーが退屈しているとき用で、もう1つはリラックスしているとき用です。