私は、短いテキストをクラスに分類することを最終目標とするプロジェクトを開始しようとしています。場所は一連のキーワードで表されます (例: 食事や「中華料理」などのマイルの種類)。したがって、理想的には、短いテキスト分析に基づいてユーザーの欲求をモデル化し、欲求スコアまたは欲求確率に基づいて分類するためのアプローチが必要です。この分野に最先端のものはありますか? ありがとうございました
1810 次
1 に答える
6
この問題は、テキストの感情分析とまったく同じです。しかし、従来の二項分類ではなく、「中立」の意見をお持ちのようですね。最先端のセンチメント分析は、ドメインに大きく依存しています。たとえば、映画の分類に優れた技術は、商用製品ではうまく機能しません。
さらに、機能の選択もドメインに大きく依存します。たとえば、ユニグラムは映画レビューの分類に適していますが、ユニグラムとバイグラムを組み合わせると、Twitter のテキストの分類に適しています。
私の最善のアドバイスは、さまざまな機能で「遊んでみる」ことです。あなたが見ているのは短いテキストなので、Twitter はおそらく良い動機付けの例です。機能としてユニグラムとバイグラムから始めます。正確なアルゴリズムはあまり重要ではありません。SVM は通常、適切なパラメーター調整で非常にうまく機能します。より大きなデータセットで実験する前に、これらのパラメーターを調整するために少量の保留データを使用してください。
この問題のさらに興味深い部分は、ランキングです! 「純度スコア」は、最近、次の論文でこの目的のために使用されています (そして、それらはかなり最先端のものだと思います)。
- 感情の要約: ユーザーの好みの評価と学習。ラーマン、ブレア・ゴールデンソーン、マクドナルド。EACL。2009年。
- ウェブ由来の極性レキシコンの実行可能性。ヴェリコビッチ、ブレア・ゴールデンソン、ハンナン、マクドナルド。NAACL。2010年。
于 2012-04-23T16:40:14.263 に答える