nlp - NLP: 質的に「肯定的」な文章と「否定的」な文章

Question

業界固有の文章 (映画のレビューなど) を「ポジティブ」と「ネガティブ」で分析するための最良のアプローチを決定するために、あなたの助けが必要です。以前に OpenNLP などのライブラリを見たことがありますが、レベルが低すぎます。基本的な文の構成を教えてくれるだけです。私が必要としているのは、より高レベルの構造です:

ありがとう！

score 23 · Accepted Answer

あなたが探しているのは、一般にセンチメント分析と呼ばれるものです。通常、センチメント分析は、皮肉や皮肉などの微妙な微妙な点を処理することはできませんが、大量のデータセットを投入すれば、うまく機能します。

通常、感情分析にはかなりの前処理が必要です。少なくともトークン化、文の境界検出、品詞のタグ付け。場合によっては、構文解析が重要になることがあります。それを適切に行うことは、計算言語学の研究の全体的な分野であり、最初にその分野を研究するために時間を割かない限り、独自の解決策を考え出すことはお勧めしません.

OpenNLP にはセンチメント分析を支援するツールがいくつかありますが、より深刻な分析が必要な場合は、LingPipeツールキットを検討する必要があります。組み込みの SA 機能と優れたチュートリアルがあります。また、独自のデータセットでトレーニングすることもできますが、それがまったく些細なことだとは思わないでください :-)。

この用語をグーグルで検索すると、作業に役立つリソースも得られるでしょう。もっと具体的な質問があれば、聞いてください。nlp-tag を注意深く見ています ;-)

score 6 · Accepted Answer

感情分析へのアプローチの中には、他のテキスト分類タスクで一般的な戦略を使用するものがあります。最も一般的なのは、映画のレビューを単語ベクトルに変換し、それをトレーニングデータとして分類アルゴリズムに供給することです。最も一般的なデータマイニングパッケージがここで役に立ちます。オープンソースのRapidMiner ツールキットを使用して実験を行う方法を説明する、センチメント分類に関するこのチュートリアルをご覧ください。

ちなみに、映画のレビューに関する意見の検出に関連する研究目的で利用できる優れたデータセットがあります。これは IMDB のユーザーレビューに基づいており、この分野に関する多くの関連研究と、データセットの使用方法を確認できます。

これらの方法の有効性は統計的な観点からのみ判断できることを念頭に置いておく価値があるため、誤分類や意見を検出するのが難しい場合があるとほぼ想定できます. このスレッドですでに気づいたように、皮肉や皮肉などを検出することは非常に困難な場合があります。

nlp - NLP: 質的に「肯定的」な文章と「否定的」な文章

2 に答える 2

Related

Reference