0

私の問題:

a) 6 つの時点で 1000 の遺伝子の発現に関するデータセットを取得しました。

b) いくつかの遺伝子 ( testing set) は、これらの時点での遺伝子発現の分布によって特徴付けられる特定のクラスに属します。

c) このクラスの既知の遺伝子のデータセットも持っています ( training set)。

d) さらにfalse、テスト セットをランダムに再編成してデータセットを生成し、それを SVM モデルに含めたいと考えています。

とパッケージ(a)-(c)を使用して行う方法はわかっていると思いますが、実装する方法がわかりません。計算されたモデルでデータをテストし、後でこのデータセットと の結果を比較する必要がありますか?Re1071(d)falsetest set

また、比較にはどのディストリビューションを使用すればよいですか? (paretroまたはuniversal gamma、計算された確率を提供するかもしれませんか?)

4

1 に答える 1

0

私は2つのアプローチを検討します:

  1. あなたが示唆しているように、SVMで追加のテストセットとして偽のセット(または複数の順列、つまり複数の偽のセット)を実行し、スコアを実際のテストセットと比較します。基本的に、実際のテスト セットのパフォーマンスが、ほとんどの偽のセットよりも大幅に優れていることを示す必要があります。これは、たとえば、より複雑なデータに対するこの論文で説明されている統計テストの精神に基づいています。また、このホワイト ペーパーは、ビニング アプローチを使用して SVM スコアを較正済み確率に変換する場合にも役立ちます。

  2. falseセットのサブセットを2 番目のトレーニング セットとして使用して、2 クラスの SVM を構築します。次に、分類タスクは、遺伝子発現パターンがどのクラスに属している可能性が高いかを確認することです:「陽性」クラスまたは「偽」クラス. この論文このスレッドこのスレッド、および一般的な SVM テキストは、この 2 クラス分類器を最適に設計する方法を決定するのに役立ちます。

それが役に立てば幸い。

于 2013-05-24T05:45:10.013 に答える