PageRank、HITS などの Web ランキング アルゴリズムを含むライブラリを紹介してくれる人はいますか? ありがとうございました
2 に答える
元の PageRank paperで公開されている正規の PageRank アルゴリズムを参照していると思います。現在、人々は「PageRank」を使用して、実際の現在の Google の検索アルゴリズムを参照しています。
その場合、PageRank の実装を見つけて使用することはそれほど難しくありません。Google で検索すると、かなりの数の実装が見つかります。たとえば、 python の 1 つ。
HITS アルゴリズムについては、wikipedia に疑似コードがあります。Perlの実装もあります。
また、いじり始めるにはCLuceneをお勧めします。
Google で働いていない限り、Google のページ ランキング アルゴリズムの詳細を知る良い方法はあまりありません。アルゴリズムは時々変更されます。ウィキペディアでは、いくつかの基本事項について概説しています。
http://en.wikipedia.org/wiki/PageRank
他の人は長い記事を書きます:
http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/
検索エンジンの作成に関連するテクニックに興味がある場合は、いくつかのトピックがあります。たとえば、「Web クローリング」と、Web サイトにアクセスしてそのコンテンツを取得するプログラムの作成方法と、サイトが変更されたかどうかを確認するためにいつ再度サイトにアクセスするかを決定する方法があります。
http://en.wikipedia.org/wiki/Web_crawler
マシン上に分析および検索するデータが大量にある場合、調査対象の領域は「情報検索」(または「IR」) と呼ばれます。
http://en.wikipedia.org/wiki/Information_retrieval
これはかなり新しい科学ですが、多くの研究が行われています。ウィキペディアには「無料の検索エンジン ソフトウェア」のリストがあります。
http://en.wikipedia.org/wiki/Category:Free_search_engine_software
これに慣れていない場合は、Lucene などを使用して Web サイトに検索ボックスを提供する方法を理解することから始めることをお勧めします。次に、掘り下げて、それがどのように機能するかを確認します。それが重要な場合は、C++ に移植されています。