java - 以下の ECM テクノロジーの活用方法 - 比較

Question

理論的な質問があります。さまざまな形式 (ODS、MS オフィス、pdf、html) のドキュメントが大量にあり、ドキュメント管理システムではなく、(さまざまな言語の) ドキュメントのメタデータとデータを保持するシステムである ECM システムを実装したいと考えています。ファイルシステムとデータベース（メタデータのみ）に統合された方法（xhtml）でデータ処理（インデックス作成、検索）を行います。

どのような技術を使用し、どのように進めますか? これらは私のオプションです：

Apache Tika のみを使用 - これらのドキュメントを解析し、メタデータとデータを xhtml 形式に抽出し、インデックス作成とフルテキストに Lucene または Solr を使用します (大きな欠点はデータベースの永続性です - メタデータは大きく異なります)

TikaパーサーでApache Solrのみを使用しています-私はそれを経験していません。Apache Nutch のようなデータベース統合をサポートしていますか?

次に、Apache UIMA プロジェクトがあります。内部で何が起こっているのかを知るのは非常に困難です。

すでに Apache Tika (alfresco、apache jackrabbit) を使用している CMS を使用していますが、それらの使用経験はあまりありません。とにかく、Apache Tika 自体が処理しない (doc 対 docx または異なるメタデータタイプ) などの問題は、彼らが既に処理していると確信しています。

Apache Tika から xhtml 形式を取得した後、eXist db のようなネイティブ XML データベースを使用することもできますが、これらのドキュメントの構造がかなりフラットであるため、それが適切な選択であるかどうかはわかりません。XML データベースは、より階層的なドキュメントの持続性を目的としています。

score 0 · Accepted Answer

「すぐに使える」ソリューションが必要な場合は、Camelなどの統合フレームワークを使用して、ファイルからエンティティを抽出するためのラクダルートを確立し（tikaを使用）、jdbcを介してデータベースに移行することを検討できます。それ以外の場合は、生のソースデータで始まり、抽出されたエンティティで終わる典型的なデータマイニングタスクのように聞こえます。

java - 以下の ECM テクノロジーの活用方法 - 比較

1 に答える 1

Related

Reference