web-crawler - Web サイトから複数の Web ページをクロールする

Question

Web サイトからデータを抽出したい。たとえば、URL はhttp://www.example.com/です。そこで、この URL を入れました(ドキュメントのDMOZstart_urlsの例を参照してください)。しかし、文字列を入力してボタンをクリックすると、その文字列が追加され、このhttp://www.example.com/computer/page-のようにアクセスできるすべてのページが抽出される GUI も作成したいと思います。 1 . ループを使用してこれを行う方法を教えてください。動作するかどうかを確認するために手動でさらに URL を入力しようとしましたが、うまく応答しません。場合によっては、応答がありません。それについて何か考えはありますか？start_urlsstart_urls

score 0 · Accepted Answer

ループを使用してこれをどのように行うことができますか?

友人、それはループになります。真剣に、これを行う既存のオープンソーススクリプトとアプリケーションを検討することを検討します。あなたは簡単にそれを見て、それがどのようにできるかを理解することができます. そしてもちろん、気分が良くなるものは何でも、好きなだけ作ることができます。世の中には、Web スパイダーソリューションの例がたくさんあると確信しています。ツールセットが限られているので、何らかの bash や perl スクリプトを介して制御されるwgetを使って何かをハッキングしようとするかもしれませんが、それは私であり、多くの人にとって必ずしも好ましいことではありません。

「タスク」自体については、本当に自分でコーディングしたい場合は、サブタスクに分割することを検討してください。2 つのアプリケーションがこのタスクを実行しているのを見る人もいます。たとえば、1 つのアプリケーションにリンクを保存し、もう 1 つのアプリケーションを「フェッチャー」であるスパイダーにすることができます。

そして、「ループ」の観点から考えないようにしてください。プロジェクトのこの段階ではまだループはありません。

Linux を使用している場合、または Windows 用の Cygwin / GnuTools がインストールされている場合は、wget がこれを行うようにスクリプト化されているのではないかと強く疑っています。テキストリンクのリストを調べて、css、画像、さらには js を取得します。

もちろん、これらすべてがコマンドラインから正常に機能するようになったら、フロントエンドからフレンドリーな方法でこれにアクセスする必要があるかもしれません。ここでも、使用する言語/テクノロジースタックに応じて、さまざまなオプションがあります。それは私が立ち入らない別のトピックです。

これが役に立てば幸いです、乾杯！

簡単に言うと、Sourceforge、git-hub、google などで既存のオープンソース Web スパイダリングリソースを検索できます。

web-crawler - Web サイトから複数の Web ページをクロールする

2 に答える 2

Related

Reference