7

目の前の問題について、どのような特徴選択アルゴリズムが最適に機能するかを教えてくれる、私が読むことができる研究論文/本はありますか?

Twitterメッセージを単純に正/負として識別しようとしています(そもそも)。私は周波数ベースの機能選択から始めました (NLTK 本から始めました) が、同様の問題に対してさまざまな個人が異なるアルゴリズムを選択していることにすぐに気付きました。

周波数ベース、相互情報量、情報取得、その他のさまざまなアルゴリズムを試すことができますが、リストは無限にあるようです..そして、試行錯誤しながら効率的な方法があるかどうか疑問に思っていました.

何かアドバイス

4

3 に答える 3

6

前回の質問で私がお勧めした本はもう試しましたか? これは、オンラインで無料で入手でき、あなたが扱っているタスクに関するものです: Pang と Lee による感情分析と意見マイニング. 第 4 章 (「抽出と分類」) はまさにあなたが必要としているものです!

于 2010-01-15T17:13:20.590 に答える
4

私は昨学期に NLP のコースを受講しましたが、センチメント分析は (まだ) 誰も実際にどのように行うべきかを知らないものであることが明らかになりました。もちろん、教師なし学習でこれを行うのはさらに困難です。

これに関しては非常に多くの研究が行われており、その一部は商用であり、一般に公開されていません。研究論文を紹介することはできませんが、コースで使用した本はこれでした( google books preview )。とはいえ、この本は多くの資料をカバーしており、この特定の問題の解決策を見つけるための最速の方法ではないかもしれません.

他に指摘できる唯一のことは、「感情分析」または「意見マイニング」については、scholate.google.com でグーグル検索することです。

NLTKmovie_reviewsコーパスを見てください。レビューは既に肯定/否定に分類されており、分類子のトレーニングに役立つ可能性があります。Twitter で見かける言語は、おそらくそれらとは大きく異なるものです。

最後のメモとして、ここに成功 (または失敗) を投稿してください。この問題は、ある時点で後で確実に発生します。

于 2010-01-14T17:09:22.330 に答える
1

残念ながら、機械学習を扱う場合、特効薬はありません。これは通常、「無料ランチなし」の定理と呼ばれます。基本的に、いくつかのアルゴリズムが問題に対して機能し、一部のアルゴリズムは一部の問題でより良く機能し、他の問題ではより悪くなります。全体として、それらはすべてほぼ同じように機能します。同じ機能セットにより、特定のデータセットに対して、あるアルゴリズムのパフォーマンスが向上し、別のアルゴリズムのパフォーマンスが低下する可能性があります。別のデータセットの場合、状況は完全に逆転する可能性があります。

通常、私が行うことは、同様のタスクで他の人のために機能したいくつかの特徴選択アルゴリズムを選択し、それらから開始することです。お気に入りの分類子を使用して得られるパフォーマンスが許容範囲内である場合、さらに0.5パーセントポイントを探すことはおそらく私の時間の価値がありません。しかし、それが受け入れられない場合は、私のアプローチを再評価するか、より多くの特徴選択方法を探す時が来ました。

于 2010-01-15T13:17:08.807 に答える