2

理論的な質問があります。さまざまな形式 (ODS、MS オフィス、pdf、html) のドキュメントが大量にあり、ドキュメント管理システムではなく、(さまざまな言語の) ドキュメントのメタデータとデータを保持するシステムである ECM システムを実装したいと考えています。ファイルシステムとデータベース(メタデータのみ)に統合された方法(xhtml)でデータ処理(インデックス作成、検索)を行います。

どのような技術を使用し、どのように進めますか? これらは私のオプションです:

Apache Tika のみを使用 - これらのドキュメントを解析し、メタデータとデータを xhtml 形式に抽出し、インデックス作成とフルテキストに Lucene または Solr を使用します (大きな欠点はデータベースの永続性です - メタデータは大きく異なります)

TikaパーサーでApache Solrのみを使用しています-私はそれを経験していません。Apache Nutch のようなデータベース統合をサポートしていますか?

次に、Apache UIMA プロジェクトがあります。内部で何が起こっているのかを知るのは非常に困難です。

すでに Apache Tika (alfresco、apache jackrabbit) を使用している CMS を使用していますが、それらの使用経験はあまりありません。とにかく、Apache Tika 自体が処理しない (doc 対 docx または異なるメタデータ タイプ) などの問題は、彼らが既に処理していると確信しています。

Apache Tika から xhtml 形式を取得した後、eXist db のようなネイティブ XML データベースを使用することもできますが、これらのドキュメントの構造がかなりフラットであるため、それが適切な選択であるかどうかはわかりません。XML データベースは、より階層的なドキュメントの持続性を目的としています。

4

1 に答える 1

0

「すぐに使える」ソリューションが必要な場合は、Camelなどの統合フレームワークを使用して、ファイルからエンティティを抽出するためのラクダルートを確立し(tikaを使用)、jdbcを介してデータベースに移行することを検討できます。それ以外の場合は、生のソースデータで始まり、抽出されたエンティティで終わる典型的なデータマイニングタスクのように聞こえます。

于 2011-05-05T03:18:11.440 に答える