ディメンションとして用語を含む文書用語データがあります。用語について特徴選択を実行する必要があり、特徴選択を実行するための尺度として相互情報を使用するつもりです。ここでの私の疑問は、可能なすべてのペア間の相互情報量を計算した後、何をすべきかということです? しきい値を設定し、しきい値内にあるペアのすべての用語を選択する必要がありますか?
質問する
538 次
1 に答える
1
相互情報量を使用する場合は、mRMR アルゴリズムの使用を検討できます。このようなアルゴリズムで機能を選択できます。私が意味したのは:
You have n features at your data set (it means n dimensions)
最も有意義に使いたいなら
k of n (k < n)
特徴選択を使用できます (つまり、相互情報背景を使用する mRMR を使用)
kの決定は、状況によって異なります。
そのうちの 1 つは、モデルの作成時に不要な機能を使用したくないということです。
もう1つは、計算コストを回避し、データセットからいくつかの機能を削除したいということです
いくつかの機能を削除した後、アルゴリズムをテストする必要があります。精度が上がるかどうかを調べ、目的によっては精度が低下しても計算コストを回避できます(したがって、いくつかの機能も削除したい場合があります)
一方、特徴抽出方法、つまりPCAとLDA(特にあなたの場合)を検討することをお勧めします。
于 2013-03-06T13:17:08.447 に答える