データ分析のクラスタリングに WEKA ツールを使用していますが、一部の属性では、ドメイン内に多くの値があります。具体的には、タンパク質に関するいくつかの情報を表す必要があり、含める必要がある情報は、それらの機能に関連する用語です。
たとえば、これらの値は同じ属性「機能」に含まれています。
「RNA結合タンパク質」、「RNA結合リボソームRNA結合の構成成分」、「翻訳」、「細胞内リボソームリボ核タンパク質複合体」。
そして、これらの用語は非常に多様化しています。
誰かが私を助けることができますか?