理論的な質問があります。さまざまな形式 (ODS、MS オフィス、pdf、html) のドキュメントが大量にあり、ドキュメント管理システムではなく、(さまざまな言語の) ドキュメントのメタデータとデータを保持するシステムである ECM システムを実装したいと考えています。ファイルシステムとデータベース(メタデータのみ)に統合された方法(xhtml)でデータ処理(インデックス作成、検索)を行います。
どのような技術を使用し、どのように進めますか? これらは私のオプションです:
Apache Tika のみを使用 - これらのドキュメントを解析し、メタデータとデータを xhtml 形式に抽出し、インデックス作成とフルテキストに Lucene または Solr を使用します (大きな欠点はデータベースの永続性です - メタデータは大きく異なります)
TikaパーサーでApache Solrのみを使用しています-私はそれを経験していません。Apache Nutch のようなデータベース統合をサポートしていますか?
次に、Apache UIMA プロジェクトがあります。内部で何が起こっているのかを知るのは非常に困難です。
すでに Apache Tika (alfresco、apache jackrabbit) を使用している CMS を使用していますが、それらの使用経験はあまりありません。とにかく、Apache Tika 自体が処理しない (doc 対 docx または異なるメタデータ タイプ) などの問題は、彼らが既に処理していると確信しています。
Apache Tika から xhtml 形式を取得した後、eXist db のようなネイティブ XML データベースを使用することもできますが、これらのドキュメントの構造がかなりフラットであるため、それが適切な選択であるかどうかはわかりません。XML データベースは、より階層的なドキュメントの持続性を目的としています。