2

二項分類アルゴリズムを適用する必要がある 2 クラスのデータセットがあります。データセットは次のようになります。

a1、a2、a3、……+1
……
b1、b2、b3、……-1
……

ここで、各機能/属性値は 2 タプルです。たとえば、a1 は (a1_1, a1_2) です。a1_1 と a1_2 の間には依存関係があり (ただし、この時点ではどのように関連しているかはわかりません)、それらの順序は重要ではありません。同様のケースが負のクラス インスタンスにも当てはまります。

これらのインスタンスを分類する方法を探しています。そのようなアルゴリズムが存在するかどうか教えてください。

まず、タプルを分割しようとしました - a1_1 と a1_2 はインスタンスに対して 2 つの別々の列を形成し、インスタンスごとの特徴値の数が 2 倍になりました - LIBSVM (C/C++) ライブラリを使用しましたが、結果は良くありませんでした。タプルを分割することは意味がなく、したがって適切な方法を検索することは意味がないと思います。

4

1 に答える 1

0

すべてが同じであれば、データに実際にペアが含まれている場合は、その事実を学習アルゴリズムに伝えることが役立つと思います。 モノリシックペアを別々の機能に分割すると、分類アルゴリズムは、2つの機能の間に存在する可能性のある有用な関係について学習する機会が得られます

ただし、これは一般的な経験則です。良好な分類結果が得られない理由はいくつかあります。

  1. ペアの2つの機能の間に有用な関係がない可能性があります。その場合、2つの機能に分割すると、問題が非常に難しくなります。分類アルゴリズムには、調査するための追加の次元があります。
  2. たぶん、あなたは正しい学習アルゴリズムを見つけていません。アルゴリズムが異なれば長所も異なります。適切な分類アルゴリズムを使用していれば、複数の機能を使用することをお勧めします。Wekaのような教師あり学習パッケージを試してみることをお勧めします。これは、単一の問題について多数の学習アルゴリズムを比較するための非常に簡単な方法を提供します。データを.arffフォーマットに変換するだけで、SVN、決定木、ニューラルネットワークなどを使用してすぐに分類できます。
  3. 十分な機能を提供していない可能性があります。a1, a2, ...別々の機能に分割する場合[a1_1, a1_2], [a2_1, a2_2], ...は、逆のデータも含めることができます。たとえば、各データに分割されていないバージョンを含めることで、3つの[a1_1, a1_2], [a1_2, a1_1], [a2_1, a2_2], [a2_2, a2_1], ...機能を 使用することもできます。たとえば 、「すべての機能をスローしましょう。問題で考えることができる」アプローチ。[a1, a1_1, a1_2], [a2, a2_1, a2_2], ...
  4. 非常に難しい分類の問題がある可能性があります。分類器がデータを2つのグループに分割するために使用できる信号が実際に入力にあるという証拠はありますか?
于 2012-07-05T02:20:34.453 に答える