1

TikaProcessor で DIH を使用してデータベースからバイナリ データを抽出し、SolrJ API を使用してクエリを実行しています。

以下のようなデータ構造があり、1 つの注文に複数の添付ファイルを含めることができます。添付ファイルには、100 ~ 300 MB の範囲の巨大なバイナリ データが含まれている可能性があります。

注文表

オーダー ID | 詳細

アタッチメント表

属性 ID | データ | オーダーID

この構造でsolrドキュメントを作成する最良の方法は何ですか?

オプション 1: 注文ごとに 1 つの solr ドキュメントと添付ファイル用の多値フィールド

オプション 2: 添付ファイルごとに 1 つのドキュメント - フラット化された構造。また、注文にすべてのドキュメントが必要な場合は、solr のグループ化/折りたたみを使用します。

ハイライト機能も必要です。

各オプションのパフォーマンスへの影響は? 私はオプション 2 に傾倒しています。何か考えはありますか?

4

0 に答える 0