テストデータセットの顔の完成を含むこの例に出くわしました。ここでは、32
forの値が関数max_features
に渡されExtraTreesRegressor()
ます。入力データセットからランダムな特徴を選択する決定木が構築されることを学びました。上記のリンクの例では、画像がトレーニングおよびテスト データ セットとして使用されます。この wiki ページでは、さまざまな種類の画像機能について説明します。sklearn.ensemble.ExtraTreeRegressor
現在、ランダムフォレストを構築するために入力として提供された画像データセットからどの機能を検索または抽出するかを理解できません。32
また、 の値が に最適であることはどのように決定されますかmax_features
。これで私を助けてください。
3 に答える
ここで使用される機能は、生のピクセル値です。データセット内の画像は整列しており、非常に類似しているため、このタスクには十分と思われます。
ランダム フォレストは特徴抽出を行いません。彼らは、与えられたデータセットの特徴を使用します。この例では、オリベッティの顔のデータセットからのピクセル強度です。
へのmax_features
パラメーターは、ExtraTreesRegressor
「最適な分割を探すときに考慮する機能の数」を決定します (フォレストで採用されている決定木学習アルゴリズム内)。
値 32 は、おそらく経験的に決定されました。
他の人が言ったように: この素朴な例では特徴抽出はありません: 余分なツリーは生のピクセルを特徴として使用するだけです。
より現実的なコンピューター ビジョンの設定では、手動で調整された特徴抽出を実行すると、より興味深いモデルが得られる可能性が非常に高くなります。抽出する特徴の種類は、達成したいコンピューター ビジョン タスクによって異なります。OpenCV ライブラリの文献や例を読んで、コンピューター ビジョンの最先端を理解してください (今のところ、最先端の研究として、ニューラル ネットワーク ベースの表現学習は脇に置いておきます)。
パラメータの 32 の値は、ランダムに検索できます。例については、master ブランチの次の例を参照してください。
http://scikit-learn.org/dev/auto_examples/randomized_search.html#example-randomized-search-py