圧縮形式のウェブページは約6000万ページあります。これらのファイルを個別に解凍して操作したいと思います。
これが私の質問です!
まず、それらをファイルシステムに解凍すると、FSはそのような数のファイルに対応できますか。私のファイルシステムはext4です。(私は4つの異なるファイルシステムを持っているので、ファイルシステムごとに1500万ページのようにそれらの間でデータを分割できます)
第二に、これらのファイルをリレーショナルデータベースに保存する方が良いオプションでしょうか?htmlテキストをデータベースに挿入する前に、すべての面倒なHTMLテキストのクリーニングが行われていると仮定します。
ありがとう、