私はPerlでクローラーを書いています。これは、同じサーバー上にあるWebページのコンテンツを抽出する必要があります。現在、HTML :: Extractモジュールを使用して作業を行っていますが、モジュールが少し遅いことがわかったので、そのソースコードを調べたところ、LWP::UserAgentの接続キャッシュを使用していないことがわかりました。
私の最後の手段は、HTML::Extract
のソースコードを取得し、キャッシュを使用するように変更することですが、可能であれば、それを避けたいと思っています。同じ仕事をよりよく実行できる他のモジュールを知っている人はいますか?基本的には<body>
、HTMLタグを削除した要素内のすべてのテキストを取得する必要があります。