html - PerlでHTMLコンテンツを効率的に抽出するにはどうすればよいですか？

Question

私はPerlでクローラーを書いています。これは、同じサーバー上にあるWebページのコンテンツを抽出する必要があります。現在、HTML :: Extractモジュールを使用して作業を行っていますが、モジュールが少し遅いことがわかったので、そのソースコードを調べたところ、LWP::UserAgentの接続キャッシュを使用していないことがわかりました。

私の最後の手段は、HTML::Extractのソースコードを取得し、キャッシュを使用するように変更することですが、可能であれば、それを避けたいと思っています。同じ仕事をよりよく実行できる他のモジュールを知っている人はいますか？基本的には<body>、HTMLタグを削除した要素内のすべてのテキストを取得する必要があります。

score 4 · Accepted Answer

WebスクレイピングにpQueryを使用しています。しかし、 Web::Scraperについても良いことを聞いたことがあります。

これらの両方は、他のモジュールとともに、あなたと同様の質問に対するSOの回答に表示されています。

score 1 · Accepted Answer

HTML::Extractの機能は非常に基本的で面白くないように見えます。draegfunが言及したモジュールに興味がない場合は、コードをまったく必要とせずに、自分自身を使用して行うすべてのことを実行できます。そうすれば、自由に自分の条件でキャッシュを操作HTML::Extractできます。LWP::UserAgentHTML::TreeBuilder

score 0 · Accepted Answer

私はスクレイピングのニーズにWeb::Scraperを使用しています。データを抽出するのに非常に便利です。また、呼び出すことができるため、->scrape($html, $originating_uri)必要な結果をキャッシュするのも非常に簡単です。

score 0 · Accepted Answer

これをリアルタイムで行う必要がありますか？非効率性はあなたにどのように影響しますか？次のページに移動する前に1つのページを抽出する必要があるように、タスクを連続して実行していますか？なぜキャッシュを避けたいのですか？

クローラーはページをダウンロードして他の何かに渡すことができますか？おそらく、クローラーは並行して実行することも、分散して実行することもできます。

html - PerlでHTMLコンテンツを効率的に抽出するにはどうすればよいですか？

4 に答える 4

Related

Reference