algorithm - コンテンツに基づくテキストの優先順位付け

Question

テキストのリストと特定のトピックに興味のある人がいる場合、特定の人に最も関連のあるテキストを選択するアルゴリズムは何ですか?

これは非常に複雑なトピックだと思います。答えとして、テキスト分析、テキスト統計、人工知能などのさまざまな方法論を研究するためのいくつかの方向性を期待しています.

ありがとうございました

score 2 · Accepted Answer

このタスクにはかなりの数のアルゴリズムがあります。少なくとも、ここですべてを言及するには多すぎます。最初のいくつかの出発点:

トピックの発見と推奨は、重複することが多いものの、非常に特徴的な 2 つのタスクです。安定したユーザーベースをお持ちの場合は、トピックを発見しなくても、非常に優れた推奨事項を提供できる可能性があります。
トピックの発見とそれらへの名前の割り当ても、2 つの異なるタスクです。これは、テキスト A とテキスト B が類似のトピックを共有していることを明確に述べるよりも、テキスト A とテキスト B が類似のトピックを共有していることを伝える方が、多くの場合、簡単であることを意味します。トピックに名前を付けるのは、たとえばアイテムにタグを付けるなど、人間が行うのが最適です。

では実際の例をいくつか。

多くの場合、TF-IDF は出発点として適していますが、重大な欠点もあります。たとえば、2 つのテキストの「車」と「トラック」が、これら 2 つのトピックがおそらく共通であることを意味しているとは言えません。
http://websom.hut.fi/websom/データを自動的にクラスタリングする Kohonen マップ。トピックを学習し、トピックごとにテキストを整理します。
http://de.wikipedia.org/wiki/Latent_Semantic_Analysis異なる単語間の意味的類似性を検出することで、TF-IDF を強化できます。また、これは特許を取得しているため、使用できない場合があることに注意してください。
ユーザーまたは専門家によって一連のトピックが割り当てられたら、ほぼすべての種類の機械学習方法 (SVM など) を試して、TF-IDF データをトピックにマッピングすることもできます。

score 1 · Accepted Answer

検索エンジンエンジニアとして、この問題は 2 つの手法を組み合わせて使用することで最もよく解決できると思います。

テクノロジー 1、検索 ( TF-IDFまたはその他のアルゴリズム)

検索を使用して、ユーザー統計がないコンテンツのベースラインモデルを作成します。世の中には数多くのテクノロジーがありますが、 Apache Lucene/Solrコードベースが最も成熟していて安定していると思います。

テクノロジー 2、ユーザーベースのレコメンダー ( k 最近傍の他のアルゴリズム)

ユーザー統計の取得を開始したら、これを使用して、テキスト分析システムで使用される関連性モデルを強化します。この種の問題を解決するために急速に成長しているコードベースは、Apache Mahoutプロジェクトです。

score 1 · Accepted Answer

これらの線に沿ったさまざまな手法の非常に優れた概要であるProgramming Collective Intelligenceを確認してください。また、非常に読みやすい。

3 に答える 3