python - Python Web スクレイピング - ファイルをダウンロードし、すべてのデータを xml に保存する

Question

Python を使用して大学のイントラネットからデータをスクレイピングし、すべての研究論文をダウンロードしようとしています。以前に Python のスクレイピングを見たことがありますが、実際に自分で行ったことはありません。Python のスクレイピングフレームワークについてどこかで読んだことがあると思いますが、それを使用する必要がありますか?

つまり、本質的に、これは私がスクレイピングする必要があるものです:

著者
説明
分野
次に、ファイルをダウンロードし、用紙名で名前を変更します。

次に、これらすべてをxmlまたはデータベース、おそらくxmlに入れ、後日インターフェースなどを開発します。

これは実行可能ですか？どこから始めるべきかについてのアイデアはありますか?

前もって感謝します、LukeJenx

編集: フレームワークは Scrapy です

編集: 今日、サーバーをほぼ停止させたことが判明したため、講師がネットワークチームからコピーを取得しています... ありがとうございます!

score 2 · Accepted Answer

Scrapy は優れたフレームワークであり、優れたドキュメントも用意されています。そこから始めるべきです。

XPathsを知らない場合、Scrapy を使用する予定がある場合は、それらを学習することをお勧めします (非常に簡単です!)。XPath は、抽出したい html 内の特定の要素を「見つける」のに役立ちます。

Scrapy には、xml、csv などにエクスポートするための組み込みのコマンドライン引数が既にあります。scrapy crawl <spidername> -o <filename> -t xml

Mechanizeは、スクレイパーを簡単に作成するためのもう 1 つの優れたオプションです。

score 1 · Accepted Answer

はい、これは非常に実行可能ですが、これはページに大きく依存します。コメントで暗示されているように、JS を多用するサイトでは、これが非常に難しくなる可能性があります。

それはさておき、ダウンロードには標準を使用するか、リクエストurllib2を見て、より軽くて痛みの少ない体験をしてください.

ただし、HTML の解析に正規表現を使用しないことをお勧めします。しかし真剣に、代わりにBeautifulSoupを試してみてください。これは強力で非常に高レベルです。

ストレージについては、どちらが簡単か (私には XML はやり過ぎに思えます。おそらくjsonライブラリを検討してください)。

python - Python Web スクレイピング - ファイルをダウンロードし、すべてのデータを xml に保存する

2 に答える 2

Related

Reference