機械学習と決定木について質問があります。私は計算生物学 (長い RNA の二次構造予測) を研究しています。
私は、予測された RNA 二次構造の精度を予測するプログラムを持っています。プログラムへの入力引数は次のとおりです。
- ステムの長さ (L) - 3、4、5、6、7、および 8 の値
- ギャップ サイズ (G) - 0、1、2、3、4、5、6、7、および 8 の値
- チャンクの長さ (c) - 60、70、80、90、100、120、130、140、および 150 の値
長さ (S) の特定の RNA シーケンスについて、どの L、G、C の組み合わせが最大の精度を与えるかを知りたいです。
シーケンス長 S の 50 個のシーケンス ファイルのトレーニング データ セットがあり、これらのシーケンス ファイルごとに、最大精度の出力を与える L、G、C 入力パラメーターの組み合わせが既にわかっています。
すべての L、G、および C 範囲値なしで最大精度を見つけるために、どの特定の L、G、および C パラメータを使用するかを知る方法はありますか?