1日に約15GB以上のHTMLファイルをスクレイピングして保存する必要があるWebスクレイパーを実装しています。日々のデータ量も同様に増加する可能性があります。
スクレイピングしたデータをできるだけ長く保存するつもりですが、すべてのページについて少なくとも 1 か月は完全な HTML ファイルを保存したいと考えています。
私の最初の実装では、HTML ファイルをディスクに直接書き込みましたが、すぐに inode 制限の問題に遭遇しました。
私が次に試したのは、Couchbase 2.0 をキー/バリュー ストアとして使用することでしたが、Couchbase サーバーは Web スクレイピング書き込みの 5 ~ 8 時間後に Temp_OOM エラーを返し始めました。Couchbase サーバーを再起動することが唯一の復旧方法です。
MongoDB は良いソリューションでしょうか? この記事は私を心配させますが、彼らの要件は私が必要とするものを超えているようです.
また、Cassandra と HDFS についても少し調べましたが、これらのソリューションが私の問題に対して過剰であるかどうかはわかりません。
データのクエリに関しては、特定のページ データの URL と日付を取得できれば問題ありません。データもほとんどの場合、1 回書き込み、1 回読み取り、将来の読み取りに備えて保存されます。
このような大量の HTML ファイルの保存に関するアドバイスは役に立ちます。