テキストの短いフレーズにスコア (ポジティブ、ネガティブ、またはニュートラル) を適用しようとしています。顔文字を解析し、その使用法に基づいて推測する以外に、他に何を試せばよいかわかりません。この問題をより語彙的に分析した例、研究論文、記事などを提供できる人はいますか。
副詞の使用、句読点の誤用/繰り返し、スペル/文法の誤りなどはすべて、ほぼバイナリの意味で (良いか悪いか) 著者の気分の適切な指標になる可能性があると考えています。
これは非常に明確なバイナリ分類タスクのように聞こえます。問題を正または負に単純化してから、最もエントロピーな決定を行うか、確率質量をニュートラルに設定して確実性のしきい値に達していない決定を下すことができます。
最大のハードルは、確率的機械学習手法のトレーニング データを取得することです。Toolkit for Advanced Discriminative ModelingやMalletなど、すぐに利用できる最大エントロピー モデルを使用すると、これを簡単に行うことができます。あなたが説明した機能は、これらのモデルが使用する入力に合わせてフォーマットする必要があります。
トレーニング データを取得するには、Amazon の Mechanical Turk のような有料のクラウドソーシングを行うか、友人の助けを借りて自分で行うことができます。これには多くのデータが必要です。アクティブ ラーニング、アンサンブル、ブースティングなどのアプローチを使用して、データ不足に照らしてモデルの予測強度を向上させることができますが、これらを実世界のデータに対してできる限りテストし、最も効果的なものを選択することが重要です。実用化。
これに関する論文を探している場合は、Google Scholar で「感情分析」という用語を調べてください。Association for Computational Linguisticsには、言語学的およびアルゴリズム的な観点から問題に対処する会議やジャーナルからの無料で有用な論文が多数あります。また、彼らのアーカイブも閲覧します。幸運を!
それは非常に興味深いアイデアのように思えます。そこから何が生まれるのか興味があります。
句読点は、使用できる指標の 1 つだと思います...
また、次のような一般的な頭字語を試してみることもできます...
これは明らかに非常に複雑なことですが、非常に興味深いものに思えます。