2

Python を使用して大学のイントラネットからデータをスクレイピングし、すべての研究論文をダウンロードしようとしています。以前に Python のスクレイピングを見たことがありますが、実際に自分で行ったことはありません。Python のスクレイピング フレームワークについてどこかで読んだことがあると思いますが、それを使用する必要がありますか?

つまり、本質的に、これは私がスクレイピングする必要があるものです:

  1. 著者
  2. 説明
  3. 分野
  4. 次に、ファイルをダウンロードし、用紙名で名前を変更します。

次に、これらすべてをxmlまたはデータベース、おそらくxmlに入れ、後日インターフェースなどを開発します。

これは実行可能ですか?どこから始めるべきかについてのアイデアはありますか?

前もって感謝します、LukeJenx

編集: フレームワークは Scrapy です

編集: 今日、サーバーをほぼ停止させたことが判明したため、講師がネットワーク チームからコピーを取得しています... ありがとうございます!

4

2 に答える 2

2

Scrapy は優れたフレームワークであり、優れたドキュメントも用意されています。そこから始めるべきです。

XPathsを知らない場合、Scrapy を使用する予定がある場合は、それらを学習することをお勧めします (非常に簡単です!)。XPath は、抽出したい html 内の特定の要素を「見つける」のに役立ちます。

Scrapy には、xml、csv などにエクスポートするための組み込みのコマンドライン引数が既にあります。scrapy crawl <spidername> -o <filename> -t xml

Mechanizeは、スクレイパーを簡単に作成するためのもう 1 つの優れたオプションです。

于 2012-10-23T20:38:06.160 に答える
1

はい、これは非常に実行可能ですが、これはページに大きく依存します。コメントで暗示されているように、JS を多用するサイトでは、これが非常に難しくなる可能性があります。

それはさておき、ダウンロードには標準を使用するか、リクエストurllib2を見て、より軽くて痛みの少ない体験をしてください.

ただし、HTML の解析に正規表現を使用しないことをお勧めします。しかし真剣に、代わりにBeautifulSoupを試してみてください。これは強力で非常に高レベルです。

ストレージについては、どちらが簡単か (私には XML はやり過ぎに思えます。おそらくjsonライブラリを検討してください)。

于 2012-10-23T20:08:44.167 に答える