たくさんのテキスト (タイトル + メッセージ) があり、それらにタグを追加したいと考えています。この方法で各テキストを処理しました。
- 冠詞、代名詞など ('a'、'an'、'the'、'him'、'them' など) を無視する
- ハイフネーションを無視する
- 固有名詞を保存する
各テキストのタグの種類とそのエントリの数を取得します。
これで、タグとテキスト ID の関係頻度の表ができました。
tag_id1 | tag_id2 | tag_id3 | tag_id4
text_id1 | 10 | 1 | 3 | 1
text_id2 | 1 | 1 | 1 | 1
text_id3 | 13 | 0 | 2 | 0
text_id4 | 9 | 1 | 2 | 1
text_id5 | 0 | 0 | 0 | 0
mysqlクエリでtext_id1の同様のテキストを特定するにはどうすればよいですか? ソートされたリスト text_id3 text_id4 text_id2 のようなものを取得したい
「Jaccard similarity」アルゴリズムは、タグ関係を計算するだけなので十分ではありません