企業ドメインのセンチメントがポジティブ/ネガティブに分類されているドキュメントのコーパスはどこで入手できますか? アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。
商品や映画のレビューが載っているコーパスを見つけました。企業のレビューを含む、ビジネスの言語に一致するビジネス ドメインのコーパスはありますか。
企業ドメインのセンチメントがポジティブ/ネガティブに分類されているドキュメントのコーパスはどこで入手できますか? アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。
商品や映画のレビューが載っているコーパスを見つけました。企業のレビューを含む、ビジネスの言語に一致するビジネス ドメインのコーパスはありますか。
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
次のように、スマイリー付きの Twitter を使用できます。 Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
これで始められることを願っています。否定、センチメントスコープなどの特定のサブタスクに興味がある場合は、文献にもっとあります。
企業に焦点を当てるには、メソッドをトピック検出と組み合わせるか、安価に特定の企業の多くの言及だけを組み合わせることができます. または、Mechanical Turkers によって注釈が付けられたデータを取得することもできます。
他にもいくつかあります。
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
調査したいドメインに関するリソース (メディア チャネル、ブログなど) がある場合は、独自のコーパスを作成できます。私はpythonでこれを行います:
コーパスの作成は、前処理、チェック、タグ付けなどの大変な作業ですが、特定のドメインのモデルを何倍も用意して精度を上げられるというメリットがあります。準備済みのコーパスを取得できる場合は、感情分析に進んでください ;)
そのようなコーパスが自由に利用できることは知りませんが、ラベルのないデータセットで教師なしの方法を試すことができます。