metadata - 2 億枚の画像 (100 万冊の本) に関するメタデータを格納するためのデータベースを提案する (NoSQL? SQL?)

Question

友達、

100 万冊以上の書籍をスキャンするための知識保存プロジェクトを実施します。メタデータを保存および取得するためのデータベースの実装、および各オブジェクト (書籍) のスキャンステータスの追跡に使用するための提案が必要です。

SQL または NoSQL を使用する必要があることを提案できますか (メタデータはプロジェクトごとに異なる可能性があり、このプロジェクトには 15 個のフィールドがある可能性があります)
Lucene/Solr またはスケーラブルな RDF データベースに基づいたものを考えています。
カスタムメタデータフィールドを定義し、検索機能で情報を保存できるオープンソースソリューションはありますか?

score 0 · Accepted Answer

このようなソリューションは、任意のデータベースといくつかのカスタムコードを使用して作成できますが、おそらく CMS (コンテンツ管理システム) を使用すると簡単になります。CMS ソリューションは、基礎となるデータベースの詳細を隠し、ドキュメントを説明するための拡張可能なメタデータセットを操作できるようにします。

どの CMS システムを使用するかは、予算、社内の専門知識、ニーズなどの要因によって異なります。Alfresco (商用オープンソース) を使用してきましたが、これは会社で既に決定されているためでもありますが、低予算の Web サイトを作成する場合は、非エンタープライズバージョンを検討する可能性があります。Oh and Alfresco は検索に Lucene を活用しています。

ニーズが非常に基本的なものである場合は、メタデータ用のデータベース、画像用のファイルシステム、およびサーバー用のコードで十分です。私の経験から、これはデータベースが最も得意とすることではないため、データベースに画像を保存しようとすることは避けてください。

score 0 · Accepted Answer

免責事項：このタイプのプロジェクトを試みたことはありません

MSSQL サーバーの「Filestream」タイプから非常に優れたパフォーマンスが得られました。NTFS ファイル API を使用してバイナリデータを格納し、テーブルの行にポインターを保持します。

メタデータに構造がない場合は XML を使用できますが、繰り返し構造がある場合は、それを関係データに押し込み、インデックスなどを使用してパフォーマンスを向上させることができます。

ファイルストリームの種類

metadata - 2 億枚の画像 (100 万冊の本) に関するメタデータを格納するためのデータベースを提案する (NoSQL? SQL?)

2 に答える 2

Related

Reference