ユーザーがSolrを使用してファイルを検索して検索を強化できるようにするPHPアプリを作成しています。これは主に、アプリでWordドキュメントとPDFのコンテンツ検索が必要なためです。このアプリは、MySqlデータベースを使用してファイルを追跡します。
すべてのファイル(おそらく約20,000)に最初にインデックスを付ける最良の方法は、特定のディレクトリ内のすべてのファイルをループして各ファイルをSolrインデックスに追加し、そのレコードを作成するPHPスクリプトを作成することです。データベース。
問題は、ファイル自体に、インデックスを作成する必要のあるすべてのデータが含まれていないことです。Solr Cellを使用してファイル名、コンテンツ、作成者などのインデックスを作成したら、アプリのユーザーがタグやカテゴリなどのメタデータを追加できるようにする必要があります。
ユーザーがこのデータをMySqlデータベースに追加した場合、すでにインデックスが作成されているデータ(コンテンツなど)を上書きせずに、追加のデータでSolrを更新できないことを理解しています。
だから私の質問は、ファイルがSolrによってインデックス付けされたら、Solr Cellエクストラクタによってファイル自体から取得できなかったメタデータをインデックスに追加するにはどうすればよいですか?