2

特定のデータ項目をユーザーに表示する価値があるかどうかを投票できる機能がいくつかあります。それぞれを0から1までの数値と考えることができます。ここで、1はそれが良いことを意味し、0はユーザーに表示する価値がないことを意味します。私は、プロパティごとに重みを選択し、重み付きの合計を実行して、決定を下すための単一のインジケーターを決定するというかなり標準的なことを行っていました(単一の知覚ユニットのように)。

ただし、異なるプロパティが互いに圧倒し、悪い結果をもたらす場合があります。基本的な問題は、真の最適関数がかなり非線形であり、もちろん、これらの加重和が与える唯一の規則が定義上線形であるということだと思います。これに対抗するために、加重和で「圧倒」されていた機能の1つで、それを使用して単一のインジケーター全体を乗算しました。これにより、この重要な機能を「ゲートキーパー」として機能させることができます。この1つの機能が低すぎる場合は、それだけでデータが送信されないようにすることができます。

標準の加重和を実行して同様の効果を達成するには、その機能の重みを非常に高くして、他の機能が基本的に何も言えないようにする必要があります...基本的に、これ以降、最良のルールの非線形性に戻ります機能は、一部の範囲では非常に重要になる可能性がありますが、他の範囲では重要ではありません。

このような結果全体を乗算する機能を使用することについて何が知られているのか疑問に思いましたか?加重和が(単純さ以外に)最も頻繁に使用されるものであるという特定の理由はありますか?

PS。より多くのデータが得られたら、おそらく標準の機械学習手法を使用して実際にルールを学習しますが、今のところ、サンプルデータセットで手動でトレーニングしています。私は今でもそれをうまく機能させようとしている間、単純化するつもりです。

4

1 に答える 1

2

あなたの質問は本当に良いです。

あなたが言うことは重要な問題です。理論的および実用的な観点から重要です。最良の結果を得るには、機能をどのように使用する必要がありますか?

例を挙げましょう。品詞のタグ付けでは、ドキュメントの出所は役に立ちません。これは、記事が(記事の出所)WSJからのものか、Wiredからのものかに関係なく、ほとんどの単語が同じように使用されるためです。したがって、記事の出所などの機能は、用語を使用するために「過剰に機能」します。しかし、「モニター」のような単語が表示されることがあります。これは、どこに表示されたかを知っていれば、タグ付けの方法をほぼ理解できます(WSJ:動詞からのもので、Wired:名詞の場合)。

ドキュメントオリジン機能は一見便利な機能ではありませんが、タグ付けしようとしている単語に関する便利なメタ機能です。ドメイン適応の用語では、それはドメインを特徴づけます。

このタイプの問題について調べたいキーワードは次のとおりです。

もう1つの有用な情報は、線形分類器はこれらの相互作用をキャプチャするのが特に悪いということです。これは、非線形としても特徴付けられています。可能であれば、少なくとも2次式またはRBF、あるいは少なくともそれをキャプチャすることを期待できるより洗練されたものを使用する必要があります。

于 2012-08-19T10:14:27.087 に答える