最近、あるタスクに参加しました。その一部では、Apache Solr (ドキュメント検索用) と Apache Tika (ドキュメントからメタテキストまたはプレーン テキストを抽出するため) を使用する必要があります。
Solr と tika はまだ統合していませんが、両方を個別に使用しています。Apache Solr と Apache Tika に関連する一連の質問がある可能性があります。
私がSolrで行った次のタイプの実用的な例、たとえば、ダミーデータベースの作成、プログラムの作成、構成-schema.xmlの設定、Solrサーバーの実行、およびデータベースからドキュメントを取得してSolrドキュメントインデックスに保存するプログラム、データを取得するためのシンプルなクライアントの作成Solr から JSON インターフェイス経由で、MySQL データベースを Apache の Solr ドキュメント インデックスと同期させるプログラムを作成しました。
私が tika で行った以下のタイプの実践 (コンパイル済みおよびインストール済みの Tika など) は、そのドキュメント解析機能を理解していました。.. 私のサンプル タスク ステートメント: 私のプロジェクトの一部では、約 100,000 のドキュメントを格納する必要があります (これらの 100,000 (Doc、PDF、Txt) ドキュメントのデータは、Apache tika によってフェッチされ、MySql のデータベースにプッシュされ、後で Apache Solr のドキュメント データベースにプッシュされます) )全文検索の場合、クライアント インターフェイス (ブラウザ) を介してそれらを検索します。
- 単純なプログラムレベルでは、このタスクは完了します。
Solr でのインデックスまたはその他の管理に関連する課題を理解したいと思います。
** 上級レベルでは、Solr のオープン ソース コードを最適化する必要がありますか?
** Solr は適切に機能しますが、具体的な課題はありますか?
** Solr が適切に動作するように、最初に考慮すべき重要事項。
** Solr の動作を監視するために開発する追加のツールはありますか?
私が持っている質問に関連するアイデアが得られたことを願っていますか?
** また、apache Solr で apache Tika を使用した経験があるかどうか、また、考慮すべき課題や重要なことはありますか?
推奨する特定の情報源を教えてください。または、役立つと思われる文書や何かがあれば教えてください。