wget
簡単なWebスパイダーを作成するか、GoogleScholarからPDF結果をダウンロードするために使用したいと思います。それは実際、研究用の論文を入手するための非常に巧妙な方法です。
私はstackoverflowに関する次のページを読みました:
wgetを使用してWebサイトをクロールし、クロールされたリンクの総数を制限します
WebスパイダーはWgetのスパイダーとどのように異なりますか?
wgetを使用してWebサイトからすべてのファイル(HTMLではない)をダウンロードするにはどうすればよいですか?
最後のページはおそらくすべての中で最もインスピレーションを与えてくれます。私はこれで提案されているように使用してみましwget
た。
したがって、私のgoogle scholar検索結果ページはダウンロードされましたが、何もダウンロードされませんでした。
ウェブスパイダーについての私の理解レベルが最小限であることを考えると、これを可能にするために私は何をすべきですか?蜘蛛を書くことはおそらく非常に複雑であり、私が着手したくないプロジェクトであることを私は理解しています。を使用することが可能であればwget
、それは絶対に素晴らしいでしょう。