問題タブ [sentiment-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
5701 参照

nlp - エンティティのセンチメント分析 (エンティティレベルのセンチメント分析)

過去 1 年間、ドキュメント レベルのセンチメント分析に取り組んできました。ドキュメント レベルのセンチメント分析では、ドキュメント全体のセンチメントが提供されます。例 - 「 Nokia is good but vodafone sucks big time 」というテキストは、エンティティ Nokia と Vodafone にとらわれないため、負の極性が関連付けられます。Nokia には肯定的だが Vodafone には否定的など、エンティティ レベルのセンチメントを取得するにはどうすればよいでしょうか? このような問題を解決する研究論文はありますか?

0 投票する
1 に答える
2270 参照

twitter - Twitterデータの感情分析?

私はこのプロジェクトに取り組んでおり、最近のツイートから Twitter ユーザーの一般的な気分を分類したいと考えています。ツイートは多種多様なドメインに属する可能性があるため、どのように対処すればよいですか?

Naive Bayes アルゴリズムを使用することもできますが ( http://phpir.com/bayesian-opinion-miningなど)、ツイートはさまざまなドメインに属する可能性があるため、これが非常に正確かどうかはわかりません。

もう 1 つのオプションは、SentiWordNethereなどのセンチメント ディクショナリを使用することです。これはより良いアプローチでしょうか、私にはわかりません。

また、単純ベイズまたはその他のアルゴリズムを使用する予定がある場合、分類器をトレーニングするためのデータはどこで入手できますか?

ここに追加するだけで、私は主に PHP でコーディングしています。

0 投票する
1 に答える
281 参照

database - リアルタイムの感情データを保存する最も効率的な方法

特定のトピックのデータベースに Twitter のセンチメントを保存するアプリを作成する予定です。ツイートを保存する必要はなく、トピックの感情だけを保存します。SQL または noSQL DB を使用できます。アプリは大量のデータを取り込むため、効率的である必要があります。

つぶやきを取り込み、noSQL DB に保存し、別のプロセスとして、つぶやきを DB から読み取り、センチメントを分析して保存する方が効率的かどうか疑問に思っています。それとも、API からツイートを個別に読み取り、その場でセンチメントを判断し、センチメントを DB に保存する方が効率的ですか? 助けてくれてありがとう。

0 投票する
3 に答える
1175 参照

nlp - ポジティブ/ネガティブ クラスへの金融ニュース ヘッダーの分類

私は、金融ニュース記事のヘッダーを正と負のクラスに分割しようとする小さな研究プロジェクトを行っています。分類には、SVM アプローチを使用しています。多くの機能を生成できないことが主な問題です。 ML用。ニュース記事には、多くの名前付きエンティティやその他の「ゴミ」要素が含まれています (もちろん、私の観点からは)。

ML トレーニングに使用できる ML 機能を提案してください。現在の結果: 精度 =0.6、再現率 =0.8

ありがとう

0 投票する
2 に答える
10651 参照

nlp - 正極性または負極性の形容詞単語リストのセットはありますか

私は感情分析に取り組んでいます。ポジティブ/ネガティブ(ポジティブ:good、awesome、amazing、)の意味を示す形容詞のセットがあるかどうかを考えました。2つ目は、テストケースとして使用できるデータセットです。

0 投票する
1 に答える
1368 参照

nlp - 形容詞や副詞の見分け方は?

私は NLP の初心者です....文から動詞、形容詞、または副詞を識別できる API または方法はありますか? プロジェクトで必要ですか?

0 投票する
1 に答える
7100 参照

twitter - 感情分析に関する自然言語処理ツールのリスト-どれをお勧めしますか

最初は英語が完璧ではないことをお詫びします...私はドイツ出身です;)

ですから、私の研究プロジェクト(学位論文)では、特定の企業やブランドに関するツイートの感情を分析する必要があります。この目的のために、私は自分のプログラムをスクリプト化するか、ある種の変更されたオープンソースコードを使用する必要があります(APIはありません-何が起こっているのかを理解する必要があります)。

以下に、私が見つけたNLPアプリケーションのいくつかのリストを示します。私の質問は、どれとどのアプローチをお勧めしますか?そして、コードを調整するために長い夜を必要としないのはどれですか?

例:音楽プレーヤー> iPod <のツイッターを上映し、誰かが「今日はひどい日ですが、少なくとも私のiPodは私を幸せにします」またはさらに難しいと書いたとき:「それはひどい日ですが、少なくとも私のiPodはそれを補います「」

天気ではなくiPodに焦点が当てられていることを理解するのに十分賢いソフトウェアはどれですか?

また、どのソフトウェアがスケーラブルでリソース効率が良いか(いくつかのツイートを分析したいが、何千ドルも費やしたくない)?

機械学習とデータマイニング

Weka-データマイニング用の機械学習アルゴリズムのコレクションです。これは、最も人気のあるテキスト分類フレームワークの1つです。これには、ナイーブベイズやサポートベクターマシン(SVM、SMOの下にリストされている)を含むさまざまなアルゴリズムの実装が含まれています[注:その他の一般的に使用される非Java SVM実装は、SVM-Light、LibSVM、およびSVMTorchです]。関連するプロジェクトは、テキストドキュメントからキーフレーズを抽出するためのアルゴリズムであるKea(キーフレーズ抽出アルゴリズム)です。

Apache LuceneMahout-Hadoopmap -reduceフレームワークの上に一般的な機械学習アルゴリズムの高度にスケーラブルな分散実装を作成するインキュベータープロジェクト。

NLPツール

LingPipe-(技術的には'オープンソースではありません。以下を参照してください)Alias-IのLingpipeは、エンティティ抽出、音声タグ付け(pos)、クラスタリング、分類などを含むテキストの言語処理のためのJavaツールのスイートです。業界で最も成熟し、広く使用されているオープンソースのNLPツールキット。速度、安定性、拡張性で知られています。その最高の機能の1つは、使い始めるのに役立つ、よく書かれたチュートリアルの豊富なコレクションです。彼らは、学術的および産業的ツールの両方の競争へのリンクのリストを持っています。必ず彼らのブログをチェックしてください。LingPipeは、ソースコードを含むロイヤリティフリーの商用ライセンスの下でリリースされていますが、技術的には「オープンソース」ではありません。

OpenNLP -Maxent機械学習パッケージを使用して、文の検出、トークン化、音声の一部のタグ付け、チャンク化と解析、固有表現抽出、および共参照分析を実行するさまざまなJavaベースのNLPツールをホストします。

スタンフォードパーサーと品詞(POS)タガー-スタンフォードNLPグループの文の解析と品詞のタグ付けのためのJavaパッケージ。確率的自然言語パーサー、高度に最適化されたPCFGと語彙化された依存関係パーサー、および語彙化されたPCFGパーサーの両方が実装されています。それは完全なGNUGPLライセンスを持っています。

OpenFST-重み付き有限状態オートマトンを操作するためのパッケージ。これらは、確率モデルを表すためによく使用されます。これらは、音声認識、OCRエラー訂正、機械翻訳、およびその他のさまざまなタスクのためにテキストをモデル化するために使用されます。このライブラリは、GoogleResearchとNYUの寄稿者によって開発されました。これは、高速でスケーラブルなC++ライブラリです。

NTLK-自然言語ツールキットは、分類、クラスタリング、音声のタグ付けと構文解析などを教育および調査するためのツールです。実験用のチュートリアルとデータセットのセットが含まれています。メルボルン大学のスティーブンバードによって書かれました。

Opinion Finder-主観分析を実行するシステムで、意見、感情、推測、その他の私的な状態がテキストに存在する場合を自動的に識別します。具体的には、OpinionFinderは主観的な文を識別し、主観のソース(ホルダー)や肯定的または否定的な感情を表すフレーズに含まれる単語など、これらの文の主観のさまざまな側面をマークすることを目的としています。

Tawlk/osae-ソーシャルテキストの感情分類用のPythonライブラリ。最終的な目標は、「正しく機能する」単純なライブラリを用意することです。参入障壁があり、完全に文書化されている必要があります。negwords.txtおよびposwords.txtで収集されたツイートでストップワードフィルタリングを使用して、最高の精度を達成しました。

GATE -GATEは15年以上前のものであり、人間の言語を含むあらゆる種類の計算タスクに積極的に使用されています。GATEは、あらゆる形状とサイズのテキスト分析に優れています。大企業から小規模の新興企業、数百万ユーロの研究コンソーシアムから学部プロジェクトまで、私たちのユーザーコミュニティは、このタイプのシステムの中で最大かつ最も多様であり、1つの大陸を除くすべての大陸に広がっています1。

textir-テキストと感情のマイニングのためのツールのスイート。これには、スパース多項ロジット回帰用の「mnlm」関数、簡潔な部分最小二乗ルーチン用の「pls」、および潜在トピックモデルでの効率的な推定と次元選択のための「topics」関数が含まれます。

NLPツールスイート-ここのJULIEラボは、セマンティック検索、情報抽出、およびテキストマイニングのアプリケーション目的のための包括的なNLPツールスイートを提供します。継続的に拡張されているツールスイートのほとんどは、機械学習手法に基づいているため、ドメインや言語に依存しません。

..。

補足:Twitterストリーミングとget APIのどちらをお勧めしますか?

私に関しては、私はpythonとjavaのファンです;​​)

どうもありがとうございました!!!

0 投票する
3 に答える
1137 参照

machine-learning - 1 つのクラスのナイーブ ベイに対してのみ良好なパフォーマンス

Weka の Naive Bayes を使用してテキスト分類を行います。文章には「ポジティブ」と「ネガティブ」の 2 つのクラスがあります。学習セットを作成するために、ポジティブな意味を持つ約 207 の文とネガティブな意味を持つ約 189 の文を収集しました。

「嫌い」という言葉のような強い否定的な意味を持つ文を含むテスト セットで Naive Bayes を実行したところ、結果の精度はかなり高く、約 88% でした。しかし、「愛」という言葉のような肯定的な意味を持つ文をテスト セットとして使用すると、精度はさらに悪く、約 56% でした。

この違いは、おそらく私のトレーニング セット、特にその「ポジティブ」文に関係していると思います。

この違いを説明できる理由を思いつきますか? それとも、問題の始まりを見つけるのに役立つ方法でしょうか?

お時間をいただき、ありがとうございました。

ナンティア

0 投票する
1 に答える
1126 参照

solr - Solr を使用してセンチメント テキストを抽出する

Solrを使用してこれを行う方法があるかどうかを見つけるために、ほぼ一日中Webで検索してきました。基本的に、特定のテキストとその頻度から肯定的な単語と否定的な単語を抽出したいと思います。ご指導ありがとうございます!