algorithm - MEME アルゴリズムの作成方法

Question

ミームの意味がわからない場合は、この記事を読むことができます readwriteweb

私の質問は、ミームアルゴリズムを作成する方法です。何千ものブログ投稿を集約した Web サイトがあり、最も話題になっているストーリーを把握したいと考えています。

上記の記事からのこの引用を参照してください

「ミームアグリゲーションは、最も話題になっているニュース (そして、できれば最も重要なニュース) を特定することによって、信号対雑音比を削減しようとします。」

誰もこれを行う方法を知っていますか?,

彼らの簡単なチュートリアルはありますか?

私は数学があまり得意ではないので。

ありがとう

score 0 · Accepted Answer

変数:

カウント
時間
コンテンツ

コンテンツの出現回数を数えます。十分な頻度で発生する場合は、資格があります。また、最近発生した必要があります。それ以外の場合、カウントは関係ありません。誤検知を避けるために、コンテンツは適切に関連している必要があります。

手始めに、Yahoo のコンテキスト検索とキーワード API をご覧ください。

score 0 · Accepted Answer

そのようなことを行う「正しい」方法はありません。これを達成するにはさまざまな方法があり、実装/実行でき、好きなように動作するものを選択する必要があります。理解できる簡単なことから始めて、そこから進んでください。

例えば：

Ben Reeves は、「(特定のタグを付けたブログ投稿の数 / ブログ投稿の総数)」とページランクのアプローチを提案しました。これらが適切な方法でトピックを選択する場合は、それらを使用してください。

他にもいくつか提案がありますが、

ホスティング Web サイトの人気度に応じて、投稿の重みを追加できます。たとえば、New York Times に投稿されたものは、Joe Shmoes のブログに投稿されたものよりも人気があると見なされ、より多くの重みが付けられるはずです。これはページランクのアプローチに似ており、実際にはほとんど違いがない場合があります。

時間要素を追加することもできるので、トピックの投稿がどれだけ速く来るかが重要になります。たとえば、トピック B に先週から 30 件の投稿があり、トピック C に今日から 10 件の投稿がある場合、トピック C の人気が高いと見なすことができます。昨年、トピック D に 1 週間に 2 件の投稿があった場合はどうなるでしょうか? 過去 1 時間に 5 件の投稿があるトピック E はどうですか?

score 0 · Accepted Answer

最も人気のある主題を見つけたいと仮定しますか? 実際の計算は非常に単純ですが、処理する必要があるデータの量は膨大になります。

(特定のタグが付けられたブログ投稿数/ブログ投稿総数) = タグの人気度

明らかに、無視する一般的なタグ/単語のリストが必要になります

次に、そのタグに関連する最も人気のある投稿 = そのタグを含む他の投稿から最も頻繁にリンクされたブログ投稿。

また、より洗練された方法として、ページランクスタイルの計算を使用してリンクの重みを計算できます。http://www.webworkshop.net/pagerank.html - これは、ランダムにブラウジングしたときに、特定のページ、つまり最も人気のあるページに到達する確率です。

/私の2セント

score 0 · Accepted Answer

T. Segaran の本「Programming Collective Intelligence」を入手してください。

http://shop.oreilly.com/product/9780596529321.do

人気度とランキングアルゴリズムの重要な概念を紹介および説明し、Python での包括的な例を示します。

algorithm - MEME アルゴリズムの作成方法

4 に答える 4

Related

Reference