私は、サイト内の記事の全文検索 と セマンティック検索を含むプロジェクトに取り組んでいます (組み合わせが不可能な場合、ユーザーはいずれかのオプションを選択できます)。これらの記事は購読ベースであり、ログイン後にのみ検索できます。そのため、外部の検索エンジンやその API にはアクセスできません。
全文キーワード検索用のSphinx について読みました (そして、その側面のために実装するつもりです) が、これからセマンティック検索エンジンを構築する方法がわかりません。たとえば、「US President」を検索すると、George Washington、Bill Clinton (または William Jefferson Clinton) などの米国大統領の実際の名前への言及を含む記事がリストされます。
大統領をジョージ・ワシントンに、大統領をビル・クリントンに関連付けるなど、さまざまなキーワードを関連付けるために一種のタグ付けシステムを使用できるのではないかと考えていますが、データは非常に膨大であり、そのような関係が多数存在するため、それ以上の方法はわかりません。この考え。
セマンティック検索エンジン (Sphinx は全文キーワード検索を処理できると思います) をゼロから構築する方法についてアドバイスをください。それ以外の場合は、インターネット ベースのリソースや、アプリケーションに統合できる任意の言語のソフトウェアが既に存在するかどうかをお知らせください。
PS私のデータベースはMySQLです(別のデータベースシステムがタスクにより適している場合はアドバイスしてください)。PHPでプログラミングすることを好みますが、Pythonまたはこのタスクにより効果的な他の言語を学ぶ必要がある場合は、私は喜んでいるでしょう。