machine-learning - 教師あり学習における特徴の組み合わせ/共同特徴

Question

教師あり学習の問題に適切な機能を考え出そうとしているときに、私は次のアイデアを思いつき、それが理にかなっているのかどうか、もしそうなら、それをアルゴリズム的にどのように定式化するのか疑問に思いました.

画像では、2 つの領域、つまり 2 つの「タイプ」のピクセルを分類したいと考えています。境界のある構造があるとします。円を取りましょう。検索スペースをこの円に制限できることがわかっています。その円内で、セグメント化輪郭、つまり、ピクセルを内部クラス A と外部クラス B に分離する輪郭を見つけたいと考えています。

次のモデルを実装したい：

境界円に近いピクセルは、外側のクラス B に含まれる可能性が高いことがわかっています。

もちろん、境界円からの距離を特徴として使用できます。その場合、アルゴリズムは境界円から内側の輪郭までの平均距離を学習します。

しかし、モデルの仮定をよりスマートな方法で利用できるかどうか疑問に思っています。ヒューリスティックなアイデアの 1 つは、この距離によって他の特徴を重み付けすることです。つまり、境界円からさらに離れたピクセルが外側のクラス B に属したい場合は、他の特徴を強く説得する必要があります。

これは一般的な質問につながります:

アルゴリズムによって事前に個別に学習された機能の結合情報をどのように活用できますか?

そして特定の質問に：

私の概説したセットアップでは、ヒューリスティックなアイデアは理にかなっていますか? アルゴリズムのどの時点でこの情報を使用する必要がありますか? 文献で同様のアイデアを検索したい場合、推奨される文献は何ですか? または流行語は何ですか?

score 1 · Accepted Answer

見ている種類の問題 (セグメンテーションと呼ばれる) を最適化として扱い、Markov Random Fieldで実行する作業がかなりあります。これは、GraphCut などのグラフ理論的方法で解決できます。いくつかの例は、Microsoft Research の Pushmeet Kohli の研究です (この論文を試してください)。

あなたが説明するのは、そのフレームワークでは、ノードメンバーシップの事前確率であり、p(B) はエッジからの距離に反比例します (課したい他の接続性制約に加えて、通常は接続性制約があり、そこに確かに、ピクセルの強度の尤度項になります)。これを行う利点は、すべてを確率モデルとして表現できる場合、ヒューリスティックに頼る必要がなく、標準的なメカニズムを使用して推論を実行できることです。

欠点は、これを試みるにはかなり強力な数学的背景が必要なことです。あなたが提案しているプロジェクトの規模はわかりませんが、すぐに結果を出したい場合や、必要なバックグラウンドが不足している場合、これはかなり困難になるでしょう。

score 1 · Accepted Answer

これは一般的な質問につながります：

アルゴリズムによって事前に個別に学習された機能の結合情報をどのように活用できますか?

ここであなたが本当に何を求めているのかははっきりしていません。「アルゴリズムによって個別に学習された」とはどういう意味で、「共同情報」とは何ですか? まず、問題が広すぎます。「一般的な教師あり学習モデル」のようなものはありません。それぞれが少なくともわずかに異なる方法で機能し、ほとんどが 3 つのクラスに分類されます。

入力データを出力にマッピングし、分類のために結果を集計するための何らかの回帰モデルの構築 (線形回帰、人工ニューラルネットワーク)
データの幾何学的分離の構築 (サポートベクターマシン、分類ソムなど)
特定のクラスの確率を直接 (多かれ少なかれ) 推定する (ナイーブベイズ、分類制限付きボルツマンマシンなど)。

それらのそれぞれには、機能に関する何らかの方法でエンコードされた「ジョイント情報」があります。分類関数はそれらのジョイント情報です。簡単に解釈できる場合 (線形回帰) もあれば、ほとんど不可能な場合もあります (深いボルツマンマシン、一般にすべての深いアーキテクチャ)。

そして、特定の質問に：

私の概説したセットアップでは、ヒューリスティックなアイデアは理にかなっていますか? アルゴリズムのどの時点でこの情報を使用する必要がありますか? 文献で同様のアイデアを検索したい場合、推奨される文献は何ですか? または流行語は何ですか?

私の知る限り、この概念はかなり疑わしいものです。多くのモデルは、逆のことをしようとしているときに、データが相関していない場合、つまりすべてを特定の機能と相関させようとしている場合、学習してより適切に機能する傾向があります。これは、主な懸念事項の 1 つにつながります。なぜこれを行うのか? モデルにこの機能を主に使用させるには?

それが非常に重要である場合 - 教師あり学習は良い考えではないかもしれません。おそらく、この特定の機能に基づいた一連の単純なルールを適用することで、問題を直接モデル化できますか?
機能が重要であることはわかっているが、場合によっては他のことが重要であり、それらをモデル化できないことを認識している場合、問題は機能にどれだけ重みを付けるかです。それはただであるべきdistance*other_featureですか？なぜsqrt(distance)*featureですか？どうlog(distance)*featureですか？無数の可能性があり、最適な重み付けスキームを探すには、はるかにコストがかかる可能性があります。次に、生の特徴からデータを学習できる、より優れた機械学習モデルを見つけます。
機能の重要性だけを疑っている場合、考えられる最善の選択肢は... この信念を信用しないことです。多数の研究により、機械学習モデルは人間よりも特徴を選択するのに優れていることが示されています。実際、これが非線形モデルの要点です。

文学では、彼らが解決しようとしている問題は、一般的に学習プロセスに専門知識を組み込むことと呼ばれます。何千もの例があり、データ表現に直接エンコードすることはできませんが、それを省略するにはあまりにも価値のあるある種の知識があります。「機械学習の専門知識」などの用語と、その可能な同義語を調査する必要があります。

machine-learning - 教師あり学習における特徴の組み合わせ/共同特徴

2 に答える 2

Related

Reference