あなたの問題について考えてください-あなたは何を分類/予測しようとしていますか、そしてそれをどのように最もよく表現することができますか?次の生のEEG読み取り値を予測したくない可能性があるため、時系列アプローチはおそらく重要ではありません。
Wekaは、固定された属性のセット(機能、値、つまり、事前定義された長さのベクトル)を持つインスタンス(データの行)のみを処理できます。持つことができる属性の可能なタイプは、nominal
(たとえば、「赤」、「緑」、「青」)、numeric
(任意の整数/浮動小数点値)、string
(主にテキストマイニング用)です。およびdate
。raw signal
のベクトルを単一の属性として表す方法はありません。ドキュメントは次のとおりです:http ://weka.wikispaces.com/ARFF+%28stable+version%29
そうは言っても、インスタンスは次のようになります。
num,class1,reading_1,reading_2,reading_3 ... reading_n,relaxed,bored
ここreading_1
で、は最初の生の読み取り値でありreading_n
、5分の終わりの最後の読み取り値です。これは、生の測定値に基づいてクラスを予測するようにWEKAに要求するものであり、おそらくあまり効果的ではありません(測定値が互いに一致しない可能性があり、頻度などを気にせずに各測定値を個別に処理するためです。または相対的な平均)。
または、生データの前処理を行って、WEKAのほとんどの機械学習アルゴリズムに役立つようにすることもできます。この場合、重要な機能を決定してから作成する必要があります。大まかな例は次のとおりです。
num,class1,average,frequency,max_magnitude,standard_deviation,relaxed,bored
データをARFFファイルに入れる前に、データの平均や頻度などを計算した場所。次に、アルゴリズムは、予測の基礎となるデータセットのより有益な図を持っています。
しかし、さらに別の懸念は、あなたが何を代表しているのかということです。5分間のサンプル全体が同じクラスですか、それともその一部relaxed
と一部のユーザーbored
ですか?この場合、おそらく2つのサンプルが必要です。1つはユーザーが退屈しているとき用で、もう1つはリラックスしているとき用です。