1

タグを使用して投稿を分類するフォーラムがある場合、投稿の作成後にコンテンツとタイトルに応じてタグを自動的に追加することはできますか?

どうもありがとうございます

4

3 に答える 3

3

これを行う最も簡単な方法は、既知のタグのテーブルを用意することです。投稿内の各単語を繰り返し処理し、その単語がタグ テーブルにある場合は、それをリストに追加します。これをもう少し効果的にするために、表示バージョンと語幹バージョン (アルゴリズムとアルゴリズムなど) の両方にタグを格納できます。次に、投稿内の語幹抽出された単語と語幹抽出されたタグ名を比較しました。これを行う簡単な方法については、Porter のステミング アルゴリズムを参照してください (英単語の場合)。

より効果的な解決策は、TF-IDF のようなものを使用し、ベクトルを各タグに関連付けることです。新しい投稿のベクトルを作成し、コサイン類似度を使用して各タグ ベクトルと比較します。特定のしきい値を超えているタグが投稿に追加されます。自動タグ付けに使用したことはありませんが、私の経験では、非スパム データを処理する場合に非常に効果的なマッチング ツールです。(つまり、人々はシステムをごまかしたりだまそうとしたりしていません。)

これらの方法はどちらも、作業を開始するために何らかのタグ ディクショナリが既に作成されていることを前提としています。投稿で頻繁に使用されている一般的ではない単語 (頻度表が必要) を調べることで、タグ名を推測できます。

于 2011-03-22T07:32:06.360 に答える
1

この自動タグ付け PHP コードを試してください。

http://www.dangrossman.info/2008/04/07/auto-tagging-content-with-open-calais/

于 2011-03-22T06:03:42.483 に答える
0

これにはいくつかの方法があります。konforce が示唆するように、単純なキーワード マッチングまたは TF-IDF は実行可能なオプションです。その他は次のとおりです。

  • Yahoo の用語抽出Web サービスを使用して、テキストから重要な用語を抽出します。
  • Google Prediction APIを使用します。すでにタグ付けされた投稿のコーパスでトレーニングし、新しい投稿のタグを予測するように依頼します。
于 2011-03-23T01:05:21.963 に答える