57

企業ドメインのセンチメントがポジティブ/ネガティブに分類されているドキュメントのコーパスはどこで入手できますか? アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。

商品や映画のレビューが載っているコーパスを見つけました。企業のレビューを含む、ビジネスの言語に一致するビジネス ドメインのコーパスはありますか。

4

6 に答える 6

37

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

次のように、スマイリー付きの Twitter を使用できます。 Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

これで始められることを願っています。否定、センチメントスコープなどの特定のサブタスクに興味がある場合は、文献にもっとあります。

企業に焦点を当てるには、メソッドをトピック検出と組み合わせるか、安価に特定の企業の多くの言及だけを組み合わせることができます. または、Mechanical Turkers によって注釈が付けられたデータを取得することもできます。

于 2011-09-26T12:20:47.963 に答える
12

他にもいくつかあります。

http://inclass.kaggle.com/c/si650winter11

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html

于 2011-09-26T16:53:40.917 に答える
4

調査したいドメインに関するリソース (メディア チャネル、ブログなど) がある場合は、独自のコーパスを作成できます。私はpythonでこれを行います:

  • Beautiful Soup http://www.crummy.com/software/BeautifulSoup/を使用して、分類したいコンテンツを解析します。
  • 企業についての肯定的/否定的な意見を意味する文を分けてください。
  • NLTK を使用して、この文を処理し、単語をトークン化し、POS タグ付けなどを行います。
  • NLTK PMI を使用して、1 つのクラスのみで頻度の高いバイグラムまたはトライグラムを計算します

コーパスの作成は、前処理、チェック、タグ付けなどの大変な作業ですが、特定のドメインのモデルを何倍も用意して精度を上げられるというメリットがあります。準備済みのコーパスを取得できる場合は、感情分析に進んでください ;)

于 2012-03-07T15:45:12.463 に答える
1

そのようなコーパスが自由に利用できることは知りませんが、ラベルのないデータセットで教師なしの方法を試すことができます。

于 2011-09-26T08:40:00.627 に答える
0

Datafiniti から多数のオンライン レビューを入手できます。ほとんどのレビューには評価データが付属しており、肯定的/否定的よりもセンチメントの粒度が高くなります。レビューのあるお店のリストはこちら、レビューのある商品のリストはこちらです。

于 2013-06-20T19:46:40.673 に答える