php - 非公開記事用の高速なセマンティック MySQL 検索エンジンをゼロから構築する

Question

私は、サイト内の記事の全文検索 と セマンティック検索を含むプロジェクトに取り組んでいます (組み合わせが不可能な場合、ユーザーはいずれかのオプションを選択できます)。これらの記事は購読ベースであり、ログイン後にのみ検索できます。そのため、外部の検索エンジンやその API にはアクセスできません。

全文キーワード検索用のSphinx について読みました (そして、その側面のために実装するつもりです) が、これからセマンティック検索エンジンを構築する方法がわかりません。たとえば、「US President」を検索すると、George Washington、Bill Clinton (または William Jefferson Clinton) などの米国大統領の実際の名前への言及を含む記事がリストされます。

大統領をジョージ・ワシントンに、大統領をビル・クリントンに関連付けるなど、さまざまなキーワードを関連付けるために一種のタグ付けシステムを使用できるのではないかと考えていますが、データは非常に膨大であり、そのような関係が多数存在するため、それ以上の方法はわかりません。この考え。

セマンティック検索エンジン (Sphinx は全文キーワード検索を処理できると思います) をゼロから構築する方法についてアドバイスをください。それ以外の場合は、インターネットベースのリソースや、アプリケーションに統合できる任意の言語のソフトウェアが既に存在するかどうかをお知らせください。

PS私のデータベースはMySQLです（別のデータベースシステムがタスクにより適している場合はアドバイスしてください）。PHPでプログラミングすることを好みますが、Pythonまたはこのタスクにより効果的な他の言語を学ぶ必要がある場合は、私は喜んでいるでしょう。

私はすでにanswers.semanticweb.comで検索しました

score 2 · Accepted Answer

私はApache Solrを使用します。Sphinxよりも柔軟だと思います。Solr は全文検索をサポートしており、セマンティックサポート用のアドオン (サイレンなど) があると思います。Solr は Lucene のサーバー化バージョンです。

Solr は SynonymFilter をサポートしています: http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#SynonymFilter

この投稿では、コンテンツ検索を最適化するためのいくつかの戦略について説明します http://www.lucidimagination.com/devzone/technical-articles/optimizing-findability-lucene-and-solr

score 0 · Accepted Answer

この本は、このスレッドを読んでいる人に役立つかもしれません。アマゾンで見つけました。

http://www.amazon.com/E-Librarian-Service-User-Friendly-Libraries-X-media-publishing/dp/3642177425

php - 非公開記事用の高速なセマンティック MySQL 検索エンジンをゼロから構築する

2 に答える 2

Related

Reference