私は感情分析のためのNLPプロジェクトに着手しています。
私はPython用のNLTKを正常にインストールしました(これには素晴らしいソフトウェアのようです)。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。
これが私の仕事です:
- 私は1つの長いデータから始めます(彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます)
- これを文(または100文字以下の情報)に分割したいと思います(Pythonでこれを実行できると思いますか??)
- 次に、すべての文を検索して、その文内の特定のインスタンスを検索します(例:「デービッドキャメロン」)。
- 次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います
注意:私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。
これが私が抱えている問題です:
私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、(スタンフォードによる)処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか?ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか?(感情ごとに文章を整理するために、それは間違いなくWEKAですか?それとも何か他のものですか?)
なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか?
このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか?
どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう!
乾杯ケ