TikaProcessor で DIH を使用してデータベースからバイナリ データを抽出し、SolrJ API を使用してクエリを実行しています。
以下のようなデータ構造があり、1 つの注文に複数の添付ファイルを含めることができます。添付ファイルには、100 ~ 300 MB の範囲の巨大なバイナリ データが含まれている可能性があります。
注文表
オーダー ID | 詳細
アタッチメント表
属性 ID | データ | オーダーID
この構造でsolrドキュメントを作成する最良の方法は何ですか?
オプション 1: 注文ごとに 1 つの solr ドキュメントと添付ファイル用の多値フィールド
オプション 2: 添付ファイルごとに 1 つのドキュメント - フラット化された構造。また、注文にすべてのドキュメントが必要な場合は、solr のグループ化/折りたたみを使用します。
ハイライト機能も必要です。
各オプションのパフォーマンスへの影響は? 私はオプション 2 に傾倒しています。何か考えはありますか?