2

データ分析のクラスタリングに WEKA ツールを使用していますが、一部の属性では、ドメイン内に多くの値があります。具体的には、タンパク質に関するいくつかの情報を表す必要があり、含める必要がある情報は、それらの機能に関連する用語です。

たとえば、これらの値は同じ属性「機能」に含まれています。

「RNA結合タンパク質」、「RNA結合リボソームRNA結合の構成成分」、「翻訳」、「細胞内リボソームリボ核タンパク質複合体」。

そして、これらの用語は非常に多様化しています。

誰かが私を助けることができますか?

4

1 に答える 1

2

一般的なアプローチは、カテゴリがn異なるカテゴリ変数をnバイナリ ダミー変数に分割することです。

例えば:

gender = {male, female}2 つのダミー変数で次のように書き換えることができます。

  1. male = [0, 1]
  2. female = [1, 0]

あなたの場合、関数にはいくつかの異なる値を含めることができるようです(たとえば、複数の関数を持つ1つのタンパク質)。これもダミー変数に成形するのは簡単です。

于 2013-05-20T22:27:44.407 に答える