13

業界固有の文章 (映画のレビューなど) を「ポジティブ」と「ネガティブ」で分析するための最良のアプローチを決定するために、あなたの助けが必要です。以前に OpenNLP などのライブラリを見たことがありますが、レベルが低すぎます。基本的な文の構成を教えてくれるだけです。私が必要としているのは、より高レベルの構造です:

ありがとう!

4

2 に答える 2

23

あなたが探しているのは、一般にセンチメント分析と呼ばれるものです。通常、センチメント分析は、皮肉や皮肉などの微妙な微妙な点を処理することはできませんが、大量のデータ セットを投入すれば、うまく機能します。

通常、感情分析にはかなりの前処理が必要です。少なくともトークン化、文の境界検出、品詞のタグ付け。場合によっては、構文解析が重要になることがあります。それを適切に行うことは、計算言語学の研究の全体的な分野であり、最初にその分野を研究するために時間を割かない限り、独自の解決策を考え出すことはお勧めしません.

OpenNLP にはセンチメント分析を支援するツールがいくつかありますが、より深刻な分析が必要な場合は、LingPipeツールキットを検討する必要があります。組み込みの SA 機能と優れたチュートリアルがあります。また、独自のデータセットでトレーニングすることもできますが、それがまったく些細なことだとは思わないでください :-)。

この用語をグーグルで検索すると、作業に役立つリソースも得られるでしょう。もっと具体的な質問があれば、聞いてください。nlp-tag を注意深く見ています ;-)

于 2008-09-24T10:22:13.177 に答える
6

感情分析へのアプローチの中には、他のテキスト分類タスクで一般的な戦略を使用するものがあります。最も一般的なのは、映画のレビューを単語ベクトルに変換し、それをトレーニング データとして分類アルゴリズムに供給することです。最も一般的なデータ マイニング パッケージがここで役に立ちます。オープン ソースのRapidMiner ツールキットを使用して実験を行う方法を説明する、センチメント分類に関するこのチュートリアルをご覧ください。

ちなみに、映画のレビューに関する意見の検出に関連する研究目的で利用できる優れたデータ セットがあります。これは IMDB のユーザー レビューに基づいており、この分野に関する多くの関連研究と、データ セットの使用方法を確認できます。

これらの方法の有効性は統計的な観点からのみ判断できることを念頭に置いておく価値があるため、誤分類や意見を検出するのが難しい場合があるとほぼ想定できます. このスレッドですでに気づいたように、皮肉や皮肉などを検出することは非常に困難な場合があります。

于 2009-01-24T21:38:26.483 に答える