3

私は自然言語処理(NLTK を使用) に関する最終年度のプロジェクトを計画しており、関心のある分野はFacebook などのソーシャル メディア Web サイトからのコメントの要約です。たとえば、私は次のようなことをしようとしています:

画像内のランダムな Facebook コメント :

  1. わお!美しい。
  2. 本当に美しく見えます。
  3. とてもきれいで、素敵な写真です。

これで、これらのコメントはすべて (テンプレート ベースのコメント要約手法を使用して) 次のようにマップされます。

3 人がこの写真を「美しい」と評価しています。

コメントでは「きれい」という言葉よりも「美しい」という言葉が一般的に使用されるため、出力は「美しい」という言葉で構成されます(また、美しいときれいは同義語であるという事実もあります)。このタスクを達成するために、次を使用します。キーワード頻度キーワード スコアの追跡などのアプローチ(このシナリオでは、「美しい」「きれい」のスコアは非常に近い)。 これが最善の方法ですか?

これまでの私の研究では、次の論文を思いつくことができましたが、この種のコメントの要約に対処した論文はありません。

同様の問題に対処するこの分野の他の論文は何ですか?

これとは別に、要約タスクごとにサマライザーを改善したいと考えています。この点で機械学習をどのように適用すればよいですか?

4

1 に答える 1

8

トピック モデルのクラスタリングは、探しているものです。

Google Scholars で「トピック モデル クラスタリング」を検索すると、トピック モデル クラスタリングに関する多くの参考文献が得られます。

それらを理解するには、一般的な機械学習の基本とは別に、次のタスクのアプローチに精通している必要があります。

  1. クラスタリング: コサイン距離クラスタリング、k-means クラスタリング
  2. ランキング: PageRank、TF-IDF、相互情報利得、最大限界関連性
于 2014-10-12T09:13:05.050 に答える