Python を使用して大学のイントラネットからデータをスクレイピングし、すべての研究論文をダウンロードしようとしています。以前に Python のスクレイピングを見たことがありますが、実際に自分で行ったことはありません。Python のスクレイピング フレームワークについてどこかで読んだことがあると思いますが、それを使用する必要がありますか?
つまり、本質的に、これは私がスクレイピングする必要があるものです:
- 著者
- 説明
- 分野
- 次に、ファイルをダウンロードし、用紙名で名前を変更します。
次に、これらすべてをxmlまたはデータベース、おそらくxmlに入れ、後日インターフェースなどを開発します。
これは実行可能ですか?どこから始めるべきかについてのアイデアはありますか?
前もって感謝します、LukeJenx
編集: フレームワークは Scrapy です
編集: 今日、サーバーをほぼ停止させたことが判明したため、講師がネットワーク チームからコピーを取得しています... ありがとうございます!