17

私は感情分析のためのNLPプロジェクトに着手しています。

私はPython用のNLTKを正常にインストールしました(これには素晴らしいソフトウェアのようです)。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。

これが私の仕事です:

  1. 私は1つの長いデータから始めます(彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます)
  2. これを文(または100文字以下の情報)に分割したいと思います(Pythonでこれを実行できると思いますか??)
  3. 次に、すべての文を検索して、その文内の特定のインスタンスを検索します(例:「デービッドキャメロン」)。
  4. 次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います

注意:私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。

これが私が抱えている問題です:

  1. 私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、(スタンフォードによる)処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか?ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか?(感情ごとに文章を整理するために、それは間違いなくWEKAですか?それとも何か他のものですか?)

  2. なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか?

このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか?

どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう!

乾杯ケ

4

2 に答える 2

12

映画のレビュー データは、人間によって既に肯定的または否定的としてマークされています (レビューを作成した人は、極性を決定するために使用される評価を映画に与えました)。これらのゴールド スタンダードラベルを使用すると、分類器をトレーニングして、他の映画のレビューに使用できます。そのデータを使用して NLTK で分類子をトレーニングすることはできますが、その結果を選挙のツイートに適用することは、正または負をランダムに推測するよりも正確ではない可能性があります。または、数千のツイートを調べて自分でポジティブまたはネガティブにラベル付けし、これをトレーニング セットとして使用することもできます。

NLTK でのセンチメント分析に Naive Bayes を使用する方法については、http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/ を参照してください。

次に、そのコードで、映画コーパスを使用する代わりに、独自のデータを使用して (word_featsメソッド内で) 単語数を計算します。

于 2010-05-14T11:34:28.017 に答える
1

なぜWSDを使用しないのですか。曖昧性解消ツールを使用して感覚を見つけます。言葉の代わりに感覚にマップの極性を使用します。この場合、単語インデックスの極性と比較して、もう少し正確な結果が得られます。

于 2010-05-28T08:06:51.463 に答える