2

NLPに手を出すのはこれが初めてなので、私の無知を許してください。ユーザーのソーシャル プロファイルから興味/好み/趣味を抽出する方法を探しています。以下は、すべての興味 / 好き / 趣味が太字になっている例です。

「私は自分自身をかなり多様な性格だと考えています...私は プロレスラーですが、 Wall•Eの弾丸を取るでしょう.私はジムで一人の虐殺機械のように訓練しますが、「ハルマゲドン」で泣きました. 「AC/DCに行きます。ゼルダの伝説のタトゥーを入れることを真剣に考えています。私は 420 に優しいです。ある夜、フラットな群衆とパーティーを開き、私のバーニングマンと一緒に過ごすのが好きです。」次は友達、次はHaloWorld of Warcraftをプレイ、次は 40 歳未満の友達とジャムセッション. 私の最年少の友達は 16 歳で、最年長の友達は 66 歳です.歌いますバーでカラオケ、そして私は友達の集団精神科医/肩.

プロファイルはプレーン テキストです。それに関連付けられたメタ タグや ID はなく、単なるテキストの段落です。

私の素朴な考えは、各名詞をFreebaseと照合して、それがアクティビティ/アーティスト/映画/本などであるかどうかを確認することでした。 tが好きで、2 を区別する手段がありません。

2 つの質問があります。

  1. NLP のどのサブフィールドを見ればよいですか? いくつかのグーグル可能なアルゴリズム/テクニック/作者は大歓迎です。
  2. この問題はどれくらい難しいですか?

ありがとう!

4

1 に答える 1

1

まず、NLP を使用してこれを行うことが特定の目的でない限り、問題のドメインをチェックして、それを完全に回避できるかどうかを確認してください。

例えば:

  • これらのプロファイルにはタグがありますか (サイトまたはユーザーによって提供されます)?

  • サイトの APIは何を利用可能にしますか? 良い例、フェイスブック。ユーザーの投稿を読むと、「レスラー」、「カラオケ」などの単語が表示されますが、Graph API を介してどのフィールドが公開されているかを見ると、これらのアクティビティにはほぼ常に FB が関連付けられていることがわかります。 ID。

私はこの分野の専門家ではありませんが、非専門家や初心者がアクセスできる NLP に関するリソースをいくつかお勧めします。1 つ目はテキスト処理 APIです。この単純な Web サービスは、REST と JSON IO を使用します。無料で、レート制限がかなり大きいようです。

この API は、Python の成熟した安定したライブラリである優れたNatural Language Toolkit (NLTK) に大きく依存しているようです。これには、質問の問題に向けられたモジュール (感情分析、タグ付け、チャンク抽出など) が含まれています。

OP の質問を解決するために最も関連性の高い特定のサブドメインはどれですか? わかりませんが、必要なことを行うモジュールが NLTK のどこかにあるのではないかと思います。そのモジュールを見つけることは、うまくいけば、API ドキュメント(モジュールごとに編成されています) をざっと読むだけの問題です。NLTK のモジュールの優れた調査と、それぞれのモジュールのデモを含む入門セクションを読んでください。

于 2012-03-04T08:56:48.887 に答える