大量のページセットのHTMLコードをMySQLデータベースに保存するWebクローラーをPythonで作成しています。データの処理を開始する前に、保存と処理の方法が最適であることを確認したいと思います。私はしたいと思います:
データベースで使用されるストレージスペースを最小限に抑えます。おそらく、HTMLコード、ハフマンエンコーディング、またはその他の形式の圧縮を最小限に抑えます。全文検索の可能性を維持したいのですが、ハフマン符号化のような圧縮アルゴリズムでこれが可能かどうかはわかりません。
大量の行をエンコードして格納するために必要なプロセッサの使用量を最小限に抑えます。
この問題または同様の問題について、誰か提案や経験がありますか?多数のHTTPリクエストと正規表現に加えて、最適な圧縮が必要になることを考えると、Pythonはこれを行うのに最適な言語ですか?