私は自然言語処理が初めてで、簡単なプロジェクトを作成してもっと学びたいと思っています。NLTKは NLP で人気があると提案されたので、プロジェクトで使用します。
これが私がやりたいことです:
- 会社のイントラネット ページをスキャンしたい。約3Kページ
- これらのページのコンテンツを、人事、エンジニアリング、企業ページなどの特定の基準に基づいて解析および分類したいと考えています。
これまで読んだことから、名前付きエンティティ認識でこれを行うことができます。ページの各カテゴリのエンティティを記述し、NLTK ソリューションをトレーニングし、各ページを実行してカテゴリを決定できます。
これは正しいアプローチですか?方向性やアイデアに感謝します...
ありがとう