問題タブ [google-natural-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
386 参照

nlp - fasttext のような NLP を使用してテキストの一般的なカテゴリを取得する方法は?

私はアプリケーションに取り組んでおり、自然言語処理を使用してテキストから一般的なカテゴリを推測したいと考えています。自然言語処理 (NLP) の初心者です。

Google Natural Language API は、「/Arts & Entertainment」、「/Hobbies & Leisure」などの合理的な高レベルのコンテンツ カテゴリ セットを使用してこれを行います。

https://cloud.google.com/natural-language/docs/categories

オープンソースを使用してこれを行うことを望んでおり、ウィキペディアの高レベル分類などの一般的なカテゴリを使用したいと考えています。

https://en.wikipedia.org/wiki/Category:Main_topic_classifications

fasttext は良い選択肢のようですが、トレーニングに使用するコーパスを見つけるのに苦労しています。私はウィキペディアの単語ベクトル ファイルを確認し、ウィキペディアの完全なダウンロードを取得できますが、fasttext のカテゴリでタグ付けされた記事を取得する簡単な方法がわかりません。

いくつかのテキストが与えられたときに高レベルの一般的なカテゴリを識別できるオープン ソース ツールはありますか? または、使用できるトレーニング データセットはありますか?