1

私は自然言語処理が初めてで、簡単なプロジェクトを作成してもっと学びたいと思っています。NLTKは NLP で人気があると提案されたので、プロジェクトで使用します。

これが私がやりたいことです:

  • 会社のイントラネット ページをスキャンしたい。約3Kページ
  • これらのページのコンテンツを、人事、エンジニアリング、企業ページなどの特定の基準に基づいて解析および分類したいと考えています。

これまで読んだことから、名前付きエンティティ認識でこれを行うことができます。ページの各カテゴリのエンティティを記述し、NLTK ソリューションをトレーニングし、各ページを実行してカテゴリを決定できます。

これは正しいアプローチですか?方向性やアイデアに感謝します...

ありがとう

4

1 に答える 1

1

text/document classificationを実行したいようです。これは Named Entity Recognition とはまったく同じではありません。目標は、テキスト内の名前付きエンティティ (固有名、場所、機関など) を認識することです。ただし、限定されたドメインでテキスト分類を行う場合、固有名詞は非常に優れた機能である可能性があります。たとえば、ヘッド エンジニアの名前を持つページはエンジニアリングとして分類される可能性があります。

NLTK ブックには、基本的なテキスト分類に関する章があります

于 2010-10-23T11:38:08.927 に答える