0

以前、一部の Web サイトでこれを実行したかったのですが、どこから始めればよいかわかりませんでした。今回はしかし、私は断固としている。ウェブサイトをクロールして必要なデータを抽出するスクリプトについて話しています。私の目標はこれです:基本的には12月に就職の面接に出なければなりません。このサイト ( http://www.geeksforgeeks.org/ ) には、以前のインタビューからの多数の質問 ( http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/ など) が含まれていますhttp://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/)。すべてのタイトルには、「セット」という単語と数字が含まれています。自分が何をしたか、何をしなかったかを追跡するのは非常に面倒です。したがって、これらの各ページから質問を抽出し、タイトルを付けて pdf に入れたいと思います。curl、regex、Scrapy を使用してこれを行うにはどうすればよいですか? 私は C/C++/Java の中級者ですが、Python については初心者しか習熟していません。どんな助けでも大歓迎です。また、あなたが知っているそのようなスクリプトがあれば教えてください。私は自分でこれをやりたいです。出発点といくつかのガイダンスが必要です。ありがとう。

4

1 に答える 1

3

開始点だけが必要な場合はscrapy、Python 用のスクリーン スクレイピング ライブラリを試してください。requestsリクエストにはライブラリを使用することをお勧めします。これは、最も単純なオプションです (電力の損失はありません)。

また、html や xml を正規表現で解析しようとしないでください。ただしないでください。利用可能な優れたライブラリの 1 つを使用します (beautifulsoup または lxml、または beautifulsoup バックエンドを備えた lxml が最も人気がありますが、他にもあります)。

于 2013-09-11T17:54:35.453 に答える