私は会社の検索エンジンを構築するインターンです。この検索エンジンは、Web クローラーに加えてさまざまな API を使用してデータを検索し、返されたデータをインデックス化する必要があります。この返されたデータにインデックスを付けるためにsolrを使用することを考えました。
それが良いアイデアかどうかについて、まずあなたのアドバイスが欲しいです。高度なタグの名前がわからないため、JSON と Atom のインデックス作成に関して問題が発生するかどうかも知りたいです。
ありがとうございました
正しい方向に進んでいますので、どうぞお進みください。質問の 2 番目の部分への回答は「はい」です。スキーマの問題、ネストされた json のインデックス作成など、インデックス作成中に問題が発生する可能性があります。これらの問題は、プラグインまたはデータ インポート ハンドラー (DIH) を使用して解決できます。
まず、solr を使用して atom および json データのインデックスを作成できます。これを行うには、次の 2 つの方法があります。
1) データを解析し、解析されたデータの各フィールドを solr のフィールドにマップします。2) データを解析するのではなく、ファイル全体を Apache Tika に渡します (それで十分です)。これを行う方法は、データをファイルに保存し、update/extract を使用してファイルにインデックスを付けることです。