1

圧縮形式のウェブページは約6000万ページあります。これらのファイルを個別に解凍して操作したいと思います。

これが私の質問です!

まず、それらをファイルシステムに解凍すると、FSはそのような数のファイルに対応できますか。私のファイルシステムはext4です。(私は4つの異なるファイルシステムを持っているので、ファイルシステムごとに1500万ページのようにそれらの間でデータを分割できます)

第二に、これらのファイルをリレーショナルデータベースに保存する方が良いオプションでしょうか?htmlテキストをデータベースに挿入する前に、すべての面倒なHTMLテキストのクリーニングが行われていると仮定します。

ありがとう、

4

1 に答える 1

0

それらを単一のディレクトリに抽出すると、そのフォルダに割り当てられている最大インデックスを超える可能性があります。それらを複数のディレクトリに抽出すると、公平になります。

6000万は間違いなくかなりの量です。インデックス作成や検索を計画している場合は、データベースが最適なオプションです。ファイルのインデックス作成は、ファイルでluceneをしたいかによって異なります。それらは抽出されました。

現在、大規模なユーザーサイトの画像で同様の問題が発生しています。この問題を回避する方法は、各画像にGUIDを指定し、GUIDのバイトごとに別のディレクトリに割り当ててから、サブディレクトリの下の次のバイト( 8バイトまで)塗りつぶし率が上がると、補正するサブディレクトリをさらに作成します。これは、さまざまなネットストレージボックスに分散できることも意味します。

于 2012-07-17T17:11:45.027 に答える