1

機械学習と決定木について質問があります。私は計算生物学 (長い RNA の二次構造予測) を研究しています。

私は、予測された RNA 二次構造の精度を予測するプログラムを持っています。プログラムへの入力引数は次のとおりです。

  • ステムの長さ (L) - 3、4、5、6、7、および 8 の値
  • ギャップ サイズ (G) - 0、1、2、3、4、5、6、7、および 8 の値
  • チャンクの長さ (c) - 60、70、80、90、100、120、130、140、および 150 の値

長さ (S) の特定の RNA シーケンスについて、どの L、G、C の組み合わせが最大の精度を与えるかを知りたいです。

シーケンス長 S の 50 個のシーケンス ファイルのトレーニング データ セットがあり、これらのシーケンス ファイルごとに、最大精度の出力を与える L、G、C 入力パラメーターの組み合わせが既にわかっています。

すべての L、G、および C 範囲値なしで最大精度を見つけるために、どの特定の L、G、および C パラメータを使用するかを知る方法はありますか?

4

2 に答える 2

1

あなたの問題文はあまり明確ではありません。

50 のトレーニング例から学習し、「シーケンス ファイル」を入力として取り、そのシーケンス ファイルの L、G、および C の出力値として生成する予測プログラムを作成する教師あり学習アルゴリズムが必要です。

あれは正しいですか?

教師あり学習アルゴリズムには多くの選択肢があります。シーケンスファイルのデータは正確には何ですか? 実数のベクトルですか?それはどのような構造を持っていますか?シーケンス ファイルの L、G、C を「手で」決定しなければならない場合、それを実行できますか? どのようにしますか?

于 2013-04-27T14:00:21.553 に答える
1

3 つのパラメーター (L、G、C) の中で「最大の影響因子」を見つけたいと思いますが、これはあまり一般的な要件ではありませんが、いくつかのアイデアが役立つと思います。

  1. 3 つのパラメーター (1 つのツリー)、2 つのパラメーター (3 つのパラメーターから 2 つを選択するたびに 3 つのツリー)、および 1 つのパラメーターのみ (もちろん 3 つのツリー) を使用するいくつかの異なる決定ツリーを構築できます。したがって、7 つの決定木を作成し、精度の出力をそれらと比較して、最終的な予測に対するさまざまなパラメーターの寄与を知ることができます。

  2. これら 3 つのパラメーターの相対行列と最終予測を計算すると、最終結果への寄与の重みがわかります。

PS.You要件(機械学習を行うために1つの要因のみを選択する)は、一般的には良い考えではありません。これは、さまざまな要因の予測が通常線形ではないためです。つまり、機械学習の入力ベクトルでより多くの要因を組み合わせます。通常、より良い結果が得られます。

幸運を!

于 2017-03-27T09:58:09.383 に答える