3

友達、

100 万冊以上の書籍をスキャンするための知識保存プロジェクトを実施します。メタデータを保存および取得するためのデータベースの実装、および各オブジェクト (書籍) のスキャン ステータスの追跡に使用するための提案が必要です。

  1. SQL または NoSQL を使用する必要があることを提案できますか (メタデータはプロジェクトごとに異なる可能性があり、このプロジェクトには 15 個のフィールドがある可能性があります)

  2. Lucene/Solr またはスケーラブルな RDF データベースに基づいたものを考えています。

  3. カスタム メタデータ フィールドを定義し、検索機能で情報を保存できるオープン ソース ソリューションはありますか?

4

2 に答える 2

0

このようなソリューションは、任意のデータベースといくつかのカスタム コードを使用して作成できますが、おそらく CMS (コンテンツ管理システム) を使用すると簡単になります。CMS ソリューションは、基礎となるデータベースの詳細を隠し、ドキュメントを説明するための拡張可能なメタデータ セットを操作できるようにします。

どの CMS システムを使用するかは、予算、社内の専門知識、ニーズなどの要因によって異なります。Alfresco (商用オープンソース) を使用してきましたが、これは会社で既に決定されているためでもありますが、低予算の Web サイトを作成する場合は、非エンタープライズ バージョンを検討する可能性があります。Oh and Alfresco は検索に Lucene を活用しています。

ニーズが非常に基本的なものである場合は、メタデータ用のデータベース、画像用のファイル システム、およびサーバー用のコードで十分です。私の経験から、これはデータベースが最も得意とすることではないため、データベースに画像を保存しようとすることは避けてください。

于 2011-10-18T02:48:27.470 に答える
0

免責事項:このタイプのプロジェクトを試みたことはありません

MSSQL サーバーの「Filestream」タイプから非常に優れたパフォーマンスが得られました。NTFS ファイル API を使用してバイナリ データを格納し、テーブルの行にポインターを保持します。

メタデータに構造がない場合は XML を使用できますが、繰り返し構造がある場合は、それを関係データに押し込み、インデックスなどを使用してパフォーマンスを向上させることができます。

ファイルストリームの種類

于 2010-06-24T11:18:56.583 に答える