私はアプリケーションに取り組んでおり、自然言語処理を使用してテキストから一般的なカテゴリを推測したいと考えています。自然言語処理 (NLP) の初心者です。
Google Natural Language API は、「/Arts & Entertainment」、「/Hobbies & Leisure」などの合理的な高レベルのコンテンツ カテゴリ セットを使用してこれを行います。
https://cloud.google.com/natural-language/docs/categories
オープンソースを使用してこれを行うことを望んでおり、ウィキペディアの高レベル分類などの一般的なカテゴリを使用したいと考えています。
https://en.wikipedia.org/wiki/Category:Main_topic_classifications
fasttext は良い選択肢のようですが、トレーニングに使用するコーパスを見つけるのに苦労しています。私はウィキペディアの単語ベクトル ファイルを確認し、ウィキペディアの完全なダウンロードを取得できますが、fasttext のカテゴリでタグ付けされた記事を取得する簡単な方法がわかりません。
いくつかのテキストが与えられたときに高レベルの一般的なカテゴリを識別できるオープン ソース ツールはありますか? または、使用できるトレーニング データセットはありますか?