この質問を適切に表現する方法がわかりませんが、これは、以下に概説する架空のシナリオを使用して達成しようとしていることです -
私へのユーザーの電子メールには、件名と本文だけがあり、件名は電子メールのトピックであり、本文はトピックの説明であり、最大 1000 語の 1 つの段落です。ここで、この段落 (BODY 内) をコンピューター言語 (python など) を使用して分析し、SUBJECT フィールドで言及されているトピックに関して段落から最も重要な単語のリストを作成したいと思います。
たとえば、メールのトピックが iPhone で、本文が「iPhone は超解像度とグラフィックスでユーザー インターフェイス デザインを再定義します。完全にタッチ可能で、ユーザーは画面をスワイプできます」のようなものだとします。
したがって、私が探している結果は、iPhone に関連する段落の重要な用語を含む一種のリストです。例 - (ユーザー インターフェイス、デザイン、解像度、グラフィックス、タッチ、スワイプ、画面)。
したがって、基本的には、段落から最も関連性の高い単語を選択することを検討しています。この結果を達成するために何を使用できるか、またはどのように使用できるかわかりません。グーグルで検索して、自然言語処理、Python、分類などについて少し読みました。これを行う方法についての一般的なアプローチが必要です-どのテクノロジー/言語を使用して、どの領域を読む必要があるかなど..
ありがとう!
編集:::
その間ずっと読んでました。正確には、WHAT TOOL を使用して、これを行う方法を検討しています。
同義語、形態学的類似性、スペルミス、文脈分析に基づく NLP を使用して、テキスト本文から関連タグを生成します。