-3

次の問題があります。さまざまな数値で構成されるトレーニングデータセットがあります。各番号は特定のクラスに属しています。5つのクラスがあります。

範囲:1 ... 10

トレーニングデータセット:{1,5,6,6,10,2,3,4,1,8,6、...}

クラス:[1,2] [3,4] [5,6] [7,8] [9,10]

機械学習アルゴリズムを使用してクラス予測の可能性を見つけることは可能ですか?また、これに適したアルゴリズムはどれですか?

最高、米国

4

1 に答える 1

3

質問のコメントで説明されているように
I want to calculate the likelihood of a certain class to appear based on the given distribution of the training set
問題は些細なことであり、機械学習ではほとんど問題がありません。「トレーニングセット」、Count_12、Count_34、 ...
Count_910の各クラスの発生数を数えるだけです。与えられたクラスxyが現れる可能性は、単純に次のように与えられます。

   P(xy) = Count_xy  / Total Number of elements in the "training set"
         = Count_xy  / (Count_12 + Count_34 + Count_56 + Count_78 + Count_910)

さらに興味深い問題
は、トレーニングセットをシーケンスと見なし、そのシーケンスの次の項目がどうなるかを推測することです。次のアイテムが特定のカテゴリからのものである確率は、そのカテゴリの前のアイテム(上記で計算されたP(xy))に基づくだけでなく、シーケンス内でその前にあるアイテムも考慮に入れます。この問題の興味深い部分の1つは、どのように「はるか後ろ」に見えるか、そして前の一連のアイテムにどれだけの「重み」を与えるかを理解することです。

編集します(OPが「より興味深い問題」への関心を示したので)。
この「prediction-given-preceding-sequence」問題は
、イベントの予測順序の機械学習アルゴリズムStackOverflowの質問にほぼ直接対応しています。
わずかな違いは、ここのアルファベットには10​​個の異なるコード(他の質問では4個)があることと、ここではコード自体ではなく、コードのクラスを予測しようとしているという事実です。ここでは、クラスごとに2つのコードのこの集約に関して、いくつかのオプションがあります。

  • 最初からクラスを操作します。つまり、シーケンスで読み取られた各コードをそのクラスに置き換え、その後はクラスのみを検討して追跡します。
  • コードのみを処理します。つまり、1から10のコードの予測子を作成し、最後にクラスのみを考慮し、クラスを構成する2つのコードの確率を追加して、次のアイテムがそのコードである可能性を生成します。クラス。
  • いくつかのハイブリッドソリューション:コードを検討/操作しますが、クラスに集約することもあります。

私の個人的な選択は、最初にコード予測子(最後に集約するだけ)を試してみることです。この最初の試みから得られた洞察が、ロジックまたはそのパフォーマンスを単純化または改善できることを私たちに伝える場合は、そこから適応する可能性があります。先に集計します。実際、まったく同じ予測子を使用して両方のアプローチを試すことができます。入力ストリームを変更するだけで、すべての偶数をその前の奇数に置き換えることができます。早い段階で集計すると、(今後のコードを推測するための)貴重な情報が失われると思います。

于 2011-07-13T12:52:12.780 に答える