4

化粧品「XYZ」について、ユーザーのコメントやツイッターに投稿したプレーンテキストをダンプするソフトウェアを作成中です。Twitter APIから受け取ったJSONオブジェクトを解析し、生データをMySqlデータベースにダンプしました。

次に、これらのプレーンテキストを分析して、化粧品「XYZ」に関する良いコメントか悪いコメントかなどのパターンを取得し、この情報を別のAPIにフィードして、HTMLで動的なビジュアルチャートを作成する必要があります。

私は、データマイニングとテキストベースのパターン認識のこの分野ではまったく新しいです。私のデータベース内のこのプレーンテキストからパターン認識アルゴリズムを進めて、別のビジュアルチャートAPIにフィードを提供する方法を誰かが提案できれば、本当にありがたいです。

4

6 に答える 6

11

以下のNLP スタンフォードの講義、特に以下を視聴することを強くお勧めします。

  • 第 3 週 - 感情分析 (達成したいこと)
  • 第 4 週 - 関係抽出 (ハーストのパターンなど)
  • とても貴重な資料だと思います。

    于 2012-06-23T06:39:14.697 に答える
    3

    パターン認識の基本を理解している場合:

    1. 製品に関する 2 セット (肯定的および否定的) の Twitter 投稿を手動で作成します。
    2. 投稿のメトリック、カーネル、または類似度を定義します。高次元のバイナリ ベクトルを使用できます。すべてのコンポーネントは、その単語が存在することを表す値 1 と存在しないことを表す 0 を持つ単語を表します。「not」などの否定的な単語に特別な重みを追加することもできます。
    3. 機械学習アルゴリズムを使用して、手動で作成したセット (クラス) で分類子をトレーニングします。SVM、ニューラル ネットワーク、最近傍分類器などを使用できます。
    4. トレーニング済みの分類器を使用して、新しい Twitter 投稿を分類します。

    それが高いレベルでの基本的な考え方です。もちろん、注意すべき細かい点はたくさんありますが、それらを説明することは SO 回答の範囲を超えています。

    于 2012-06-23T06:36:18.800 に答える
    2

    このサブドメインは、センチメント分析と呼ばれます。このトピックに関する講義や記事はたくさんあります。残念ながら、私がこれまで見てきた実際の結果は、それほど説得力のあるものではありませんでした。

    この課題の鍵は、優れたトレーニング データを用意することです。データをすばやく調べて、ポジティブ/ニュートラル/ネガティブとして手動でタグ付けして、実質的なトレーニング セットをすばやく取得できるツールを作成します。

    スタンフォード NLP レクチャー、特に第 3 週の全体的なプロセスと最先端のアプローチとトリックの詳細を参照してください。

    于 2012-06-23T10:17:47.797 に答える
    0

    Mahoutを確認することをお勧めします(この場合、データをHDFSにロードすることをお勧めします)。

    ユースケースについてあまり具体的ではなく、テキスト分析は簡単な問題ではありませんが、Mahoutは間違いなく機械学習アプリケーションに適した「すぐに使える」ツールです。

    また、かなり良いこの本を見ることができます:テキストを使いこなす

    于 2012-06-23T06:17:55.260 に答える
    0

    Frontline Systemsの製品XLMinerを調べることをお勧めします:http://www.solver.com/xlminer/

    これは、多くの組み込み機能を備えたExcel用のデータマイニングアドインです。

    于 2012-06-26T17:09:32.410 に答える
    0

    あなたの問題に対する私の理解は、コメントが良いか悪いかを区別するために分類子が必要だということです。

    この種の問題を解決するには、スパムメール分類器と同様に、統計的手法が効果的であることが証明されています。

    cardmagic/classifierなどの Bayesian Classifier 関連のプロジェクトを参照して、役立つかどうかを確認してください。

    于 2012-06-23T06:34:46.440 に答える