私は集団的知性の分野でテキストマイニングやその他の関連することを学ぼうとしています。ドキュメントをスキャンして関連する投稿/記事をページに表示するアプリを作成することに興味があります。
必要な情報を取得するのに役立つアルゴリズムは何ですか?
ありがとう
/ A
私は集団的知性の分野でテキストマイニングやその他の関連することを学ぼうとしています。ドキュメントをスキャンして関連する投稿/記事をページに表示するアプリを作成することに興味があります。
必要な情報を取得するのに役立つアルゴリズムは何ですか?
ありがとう
/ A
簡単な方法は、ページ上の一般的でない単語とそのインスタンスを数えることです。単語が多く表示されるほど、投稿の内容をより適切に説明できます。その後、それを使用して他の記事/投稿を検索できます。
Resource Description Framework(RDF)を使用できます。RDFベースには、構造化された知識とそれらの間の接続が含まれています。したがって、テキスト内のすべての単語のRDFレコードを取得し、それらをグラフで接続できます。エッジの数が最大のノードとルートノード(グラフがツリーのような場合)は、ドキュメントのテーマを参照します。