コンテンツのタグを自動的に作成したい。一定のタグ リストがあり、ボットはそれに関するタグを作成する必要があります。どうやってやるの?そのためのクラスを知っていますか?任意の提案をいただければ幸いです!
ありがとうございました!
タグはどのくらい良いものにする必要がありますか?
n-gram の単語の頻度を単純に数えることができます。微調整することで、たとえばブログ投稿で使用する完全に有効なタグを作成できます。
より高度なものを探していて、ドキュメントのコーパスがある場合は、TF*IDF (用語頻度、逆ドキュメント頻度) を使用できます。これにより、1 つのドキュメントで言及されている意味のあるキーワードが、他のドキュメントに出現する可能性が低いことに基づいて表示されます。コーパスが十分な大きさであれば、良い結果が得られます。
ショートカットのアプローチは、コンテンツの関連セクション(タイトル? カテゴリ? ソース?) を特定し、代わりにこのようなものを使用することです。
また、Yahoo には、興味深い用語抽出 APIがあります。