0

8000万のtiffファイル(それぞれ1000 KB)をホストする必要があります。約10テラバイトの場所で、最高のドキュメント管理ソリューションになります。これらのファイルはファイルシステム上にある必要がありますが、ドキュメント管理システム(Sharepoint、Documentum、Filenetなど)を介してインデックスを作成する必要があります。すでにCSV形式のインデックスがあり、8000万個のファイルをクロールしてインデックスを再作成する代わりに、それらのインデックスを再利用したいと考えています。

4

3 に答える 3

1

SharePoint 2010 は、そのような大規模なドキュメント ライブラリを処理できます。これは、WSS3/MOSS2007 エディションで、慎重に計画および設計することで実行できます。

私は Documentum にはあまり詳しくありませんが、SharePoint の世界では、CSV のフィールドを SharePoint のフィールドにマップするカスタム コンテンツ タイプを作成し、新しいドキュメント ライブラリを使用して 1 つ (または複数、分割することは理にかなっています) のドキュメント ライブラリをプロビジョニングします。タイプ。それだけのデータがあれば、複数のサイト コレクションに分割するか、Remote Blob Storage API を確認することを真剣に検討します: http://technet.microsoft.com/en-us/magazine/2009.06.insidesharepoint.aspx

于 2009-12-26T17:03:18.303 に答える
0

インデックスをSQLServerなどのデータベースに転送し、ファイルをファイルシステムに保持するのが最善だと思います。DMS(ファイルのアップロード/アクセスなど)は、これらのインデックスに基づいて構築できます。

于 2009-12-26T16:35:45.253 に答える
-2

Hadoop のようなものを見ていただろう。Amazon Elastic Compute Cloud (EC2) および Amazon Simple Storage Service (S3) で Hadoop を実行することが可能です]。The New York Times が 100 の Amazon EC2 インスタンスと Hadoop アプリケーションを使用して、4 TB の生の画像 TIFF データ (S3 に保存) を処理し、24 時間で 1,100 万の完成した PDF を作成した例を参照して、Hadoopを見てください。約 240 ドルの計算コスト (帯域幅を含まない) [14]。

于 2009-12-26T16:53:14.390 に答える