分類子をトレーニングするときにトピックに自動的にラベルを付ける方法についていくつかのアイデアが必要です。私のデータ セットは約 50000 のテキストであり、事前に定義されたトピックをそれぞれに割り当てる必要があります。これを自動的に行うものはありますか?
2 に答える
これを自動的に行うことができれば、なぜ分類子が必要になるのでしょうか?
したがって、答えは次のとおりです。グラウンド トゥルース データを本当に生成したい場合、自動的な方法はありません。
可能であれば、事前に準備され、ラベル付けされたデータ セットを探す必要があります。そうしないと、手動ですべてのデータにラベルを付けることになります。申し訳ありません。
分類器用のトレーニング データが必要ですが、これはどういう意味ですか?
私は実際に最近同じ問題に遭遇したので、最終的にやったのは、カテゴリとサブカテゴリの簡単なリストを取得し、それらを繰り返し、それぞれのウィキペディアの記事を自動的に抽出しようとしたことです.
カテゴリ分類自体については、http://rdf.dmoz.org/rdf/を参照してください。Categories.txt ファイルがあり、必要なレベルの数まで削除できます。(2 つのレベルを使用したため、カテゴリと直接のサブカテゴリのみ)
記事の抽出にはGooseを使用できます。これは非常に使いやすい Python ライブラリであり、ドキュメントの HTML を取得して記事の本文を取り除きます。
私はまったく同じことに遭遇したので、これらすべてを実行するための小さなスクリプトを作成しました。ここで確認してください。