私はPythonの初心者で、Python3の初心者向けの本の約半分を読んでいます。これを行うと、「退屈な」演習を行う代わりに、実際にやりたいことを学び始めることができると思います.
トップ URL の Reddit をスクレイピングし、それらを自分のページに投稿するアプリケーションを構築したいと考えています。1日に数回しかチェックしないので、ここでは何も叩きません.
Reddit json (http://www.reddit.com/.json) およびその他の subreddits json を解析して、自分のトップ リストに整理し、自分のページにも自分のカテゴリを含めることができる URL に変換したいので、 Reddit にアクセスし続ける必要はありません。
Web サイトは、独自のサーバー (mysql) でホストされている DB を持つ Wordpress テンプレートになります。ウェブサーバー用の RDS、ELB、Auto-scaling、および EC2 インスタンスを使用して、これを AWS でホストします。
私の質問は次のとおりです。
- Python スクレイパー アプリケーションを独自のサーバーで実行し続け、スクレイピングした URL をデータベースに書き込むことは理にかなっていますか?
-アプリケーションを分割して、一方が読み取りを行い、もう一方が書き込みを行うのが理にかなっていると聞きましたが、これはどうですか?
- Python コードの流れはどのようになりますか? 手探りで書くことはできますが、どのように流れるべきか完全にはわかりません。
-他に考えていないこと、ヒントはありますか?