nlp - fasttext のような NLP を使用してテキストの一般的なカテゴリを取得する方法は?

Question

私はアプリケーションに取り組んでおり、自然言語処理を使用してテキストから一般的なカテゴリを推測したいと考えています。自然言語処理 (NLP) の初心者です。

Google Natural Language API は、「/Arts & Entertainment」、「/Hobbies & Leisure」などの合理的な高レベルのコンテンツカテゴリセットを使用してこれを行います。

オープンソースを使用してこれを行うことを望んでおり、ウィキペディアの高レベル分類などの一般的なカテゴリを使用したいと考えています。

fasttext は良い選択肢のようですが、トレーニングに使用するコーパスを見つけるのに苦労しています。私はウィキペディアの単語ベクトルファイルを確認し、ウィキペディアの完全なダウンロードを取得できますが、fasttext のカテゴリでタグ付けされた記事を取得する簡単な方法がわかりません。

いくつかのテキストが与えられたときに高レベルの一般的なカテゴリを識別できるオープンソースツールはありますか? または、使用できるトレーニングデータセットはありますか?

score 1 · Accepted Answer

あなたが見つけようとしているのは、テキストを分類できる一般的なカテゴリを持つ、すでに無料のトレーニング済みモデルだと思います。しかし、カテゴリの性質上、通常はGoogle Cloud Natural Language APIのようなサービスであるため、それを見つけるのは非常に困難です。

この時点で、次の 2 つのオプションがあると思います。

Google Cloud Natural Language API などのサービスを使用します。これは、数百万のデータポイントでトレーニング済みのモデルを提供するサービスです。アプリケーション内に統合できます。料金を考慮する必要があります。
最初に、分類するすべてのテキスト、これらのテキストが存在するカテゴリを含む目的のデータセットを収集する必要があります (または、データセットを操作して、テキストに応じて目的のカテゴリを追加します)。次に、SpaCyなどのライブラリを使用できます。またはNLTKを使用してデータを操作し、テキスト分類用にモデルをトレーニングします。

2 に答える 2