0

提供されたテキストの関心カテゴリ/トピックを識別しようとするモデルを構築しようとしています。例えば:

私たちの尽きることのない美しいデザイナーサリーからブライダルウェディングサリーを購入してください。お得な情報、高品質のステッチ、無料の国際配送を入手してください。

次のような最上位カテゴリに解決されます。

ファッションまたはウェディングファッション

これを実現するために、一連のドキュメントから単語の頻度に基づいてトピックを生成するトピック モデルである潜在的ディリクレ配分 (LDA) を使用しました。

だから私は以下のようにドキュメントのトピックを取得しましたが、それらを人間が理解できる形式にマッピングする方法が見つかりません

トピック #0 (0.500): 0.100*sare + 0.060*intern + 0.060*get + 0.060*deal + 0.060*exhaust + 0.060*design + 0.060*free + 0.060*qualiti + 0.060*shop + 0.060*great

トピック #1 (0.500): 0.063*sare + 0.063*beauti + 0.063*deliveri + 0.063*stitch + 0.063*varieti + 0.063*wed + 0.062*bridal + 0.062*great + 0.062*shop + 0.062*quality

このスクリプトを使用して上記のものを実装しました。

問題は、上記のトピックをファッションのような人間が読めるカテゴリにマッピングする方法です。

4

0 に答える 0