タグを使用して投稿を分類するフォーラムがある場合、投稿の作成後にコンテンツとタイトルに応じてタグを自動的に追加することはできますか?
どうもありがとうございます
これを行う最も簡単な方法は、既知のタグのテーブルを用意することです。投稿内の各単語を繰り返し処理し、その単語がタグ テーブルにある場合は、それをリストに追加します。これをもう少し効果的にするために、表示バージョンと語幹バージョン (アルゴリズムとアルゴリズムなど) の両方にタグを格納できます。次に、投稿内の語幹抽出された単語と語幹抽出されたタグ名を比較しました。これを行う簡単な方法については、Porter のステミング アルゴリズムを参照してください (英単語の場合)。
より効果的な解決策は、TF-IDF のようなものを使用し、ベクトルを各タグに関連付けることです。新しい投稿のベクトルを作成し、コサイン類似度を使用して各タグ ベクトルと比較します。特定のしきい値を超えているタグが投稿に追加されます。自動タグ付けに使用したことはありませんが、私の経験では、非スパム データを処理する場合に非常に効果的なマッチング ツールです。(つまり、人々はシステムをごまかしたりだまそうとしたりしていません。)
これらの方法はどちらも、作業を開始するために何らかのタグ ディクショナリが既に作成されていることを前提としています。投稿で頻繁に使用されている一般的ではない単語 (頻度表が必要) を調べることで、タグ名を推測できます。
この自動タグ付け PHP コードを試してください。
http://www.dangrossman.info/2008/04/07/auto-tagging-content-with-open-calais/
これにはいくつかの方法があります。konforce が示唆するように、単純なキーワード マッチングまたは TF-IDF は実行可能なオプションです。その他は次のとおりです。