1

私はアプリケーションに取り組んでおり、自然言語処理を使用してテキストから一般的なカテゴリを推測したいと考えています。自然言語処理 (NLP) の初心者です。

Google Natural Language API は、「/Arts & Entertainment」、「/Hobbies & Leisure」などの合理的な高レベルのコンテンツ カテゴリ セットを使用してこれを行います。

https://cloud.google.com/natural-language/docs/categories

オープンソースを使用してこれを行うことを望んでおり、ウィキペディアの高レベル分類などの一般的なカテゴリを使用したいと考えています。

https://en.wikipedia.org/wiki/Category:Main_topic_classifications

fasttext は良い選択肢のようですが、トレーニングに使用するコーパスを見つけるのに苦労しています。私はウィキペディアの単語ベクトル ファイルを確認し、ウィキペディアの完全なダウンロードを取得できますが、fasttext のカテゴリでタグ付けされた記事を取得する簡単な方法がわかりません。

いくつかのテキストが与えられたときに高レベルの一般的なカテゴリを識別できるオープン ソース ツールはありますか? または、使用できるトレーニング データセットはありますか?

4

2 に答える 2

1

あなたが見つけようとしているのは、テキストを分類できる一般的なカテゴリを持つ、すでに無料のトレーニング済みモデルだと思います。しかし、カテゴリの性質上、通常はGoogle Cloud Natural Language APIのようなサービスであるため、それを見つけるのは非常に困難です。

この時点で、次の 2 つのオプションがあると思います。

  1. Google Cloud Natural Language API などのサービスを使用します。これは、数百万のデータ ポイントでトレーニング済みのモデルを提供するサービスです。アプリケーション内に統合できます。料金を考慮する必要があります。

  2. 最初に、分類するすべてのテキスト、これらのテキストが存在するカテゴリを含む目的のデータセットを収集する必要があります (または、データセットを操作して、テキストに応じて目的のカテゴリを追加します)。次に、SpaCyなどのライブラリを使用できます。またはNLTKを使用してデータを操作し、テキスト分類用にモデルをトレーニングします。

于 2020-11-04T17:48:35.090 に答える