2

画像の解析に文脈自由文法を使用しようとしているプロジェクトに取り組んでいます。画像セグメントのツリーを構築し、機械学習を使用してこれらの視覚的な文法を使用して画像を解析しようとしています。

理想的に見えるSVM-CFGを見つけました。問題は、文字列の各端末に最大2つの隣接語(前後の単語)がある文字列解析用に設計されていることです。私たちの視覚的な文法では、各セグメントは任意の数の他のセグメントの隣に置くことができます。

これらの視覚的な文法を解析するための最良の方法は何ですか?具体的には、SVM-CFGを使用するようにデータをエンコードできますか?または、独自のカーネル/解析ライブラリを作成する必要がありますか?

4

1 に答える 1

1

SVM-CFGは、SVM-structで使用される切断面最適化アルゴリズムの特定の実装です(ここでhttp://www.cs.cornell.edu/People/tj/publications/tsochantaridis_etal_04a.pdf、セクション4で説明されています)。

各ステップで、切断面アルゴリズムは関数を呼び出して、最高スコアの構造化出力割り当てを見つけます(SVM-CFGでは、これは最高スコアの解析です)。

1次元文字列の場合、SVM-CFGは動的計画法アルゴリズムを実行して、多項式時間で最高スコアの解析を見つけます。

SVM-structを拡張して、画像の最高スコアの解析を返すことができますが、これを行うための多項式時間アルゴリズムは存在しません。

画像を解析する最先端の手法のリファレンスは次のとおりです:http://www.socher.org/uploads/Main/SocherLinNgManning_ICML2011.pdf。彼らは、画像セグメンテーションの最高スコアの解析を見つけるために同じ問題に遭遇するので、欲張りアルゴリズムを使用して近似解を見つけます(セクション4.2を参照)。同様の欲張りアルゴリズムをSVM-structに組み込むことができる場合があります。

于 2012-06-24T13:46:21.347 に答える