python - 段落から最も関連性の高い単語を選ぶ

Question

この質問を適切に表現する方法がわかりませんが、これは、以下に概説する架空のシナリオを使用して達成しようとしていることです -

私へのユーザーの電子メールには、件名と本文だけがあり、件名は電子メールのトピックであり、本文はトピックの説明であり、最大 1000 語の 1 つの段落です。ここで、この段落 (BODY 内) をコンピューター言語 (python など) を使用して分析し、SUBJECT フィールドで言及されているトピックに関して段落から最も重要な単語のリストを作成したいと思います。

たとえば、メールのトピックが iPhone で、本文が「iPhone は超解像度とグラフィックスでユーザーインターフェイスデザインを再定義します。完全にタッチ可能で、ユーザーは画面をスワイプできます」のようなものだとします。

したがって、私が探している結果は、iPhone に関連する段落の重要な用語を含む一種のリストです。例 - (ユーザーインターフェイス、デザイン、解像度、グラフィックス、タッチ、スワイプ、画面)。

したがって、基本的には、段落から最も関連性の高い単語を選択することを検討しています。この結果を達成するために何を使用できるか、またはどのように使用できるかわかりません。グーグルで検索して、自然言語処理、Python、分類などについて少し読みました。これを行う方法についての一般的なアプローチが必要です-どのテクノロジー/言語を使用して、どの領域を読む必要があるかなど..

ありがとう！

編集：：：

その間ずっと読んでました。正確には、WHAT TOOL を使用して、これを行う方法を検討しています。

同義語、形態学的類似性、スペルミス、文脈分析に基づく NLP を使用して、テキスト本文から関連タグを生成します。

score 3 · Accepted Answer

情報理論に基づく単純なアプローチ:

テキストのコーパス (この例では、可能であればおおよそ > 1.000 件の電子メール) が与えられた場合、コーパス内のすべての異なる単語のエントロピーを計算します。

結果を並べ替え、最も関連性の高い XX のみを保持すると、タグ付けスキームが作成されます。

2 つの異なる言語の同じテキストからの単語のクロスエントロピーを使用して、python で統計翻訳を行ったことがありますが、かなりうまく機能しました。

score 1 · Accepted Answer

やり過ぎかもしれませんが、この種のタスクはおそらく Python ライブラリのNatural Language Toolkitで解決できます- http://nltk.org/

score 1 · Accepted Answer

私は専門家ではありませんが、「重要な用語」、「関連性」などの概念を定義し、その上にランキングアルゴリズムを配置する必要があるようです。これは NLP のように聞こえます。私が知る限り、この分野で役立つ NLTK という python パッケージがあります。それが役に立てば幸い！

score 1 · Accepted Answer

他の人が言っているように、NLTK はおそらく Python で NLP を行うための頼りになるツールです。

テクニックに関しては、単語のペア間の類似性メトリックのようなものを探しています。テキスト内のすべての単語について、タイトル内のコンテンツを含む単語についてこれを計算し、上位 N を保持します。アプローチの調査については、このホワイトペーパーを参照してください。また、NLTK が機能面で提供するものを確認してください。ただし、このことについては大量の研究が行われており、おそらくかなり単純なもので満足するでしょう (アプリケーションが正確に何であるかによって異なります)。ポイントごとの相互情報量は、通常、適切な出発点です。

python - 段落から最も関連性の高い単語を選ぶ

4 に答える 4

Related

Reference