2

私はPythonの初心者で、Python3の初心者向けの本の約半分を読んでいます。これを行うと、「退屈な」演習を行う代わりに、実際にやりたいことを学び始めることができると思います.

トップ URL の Reddit をスクレイピングし、それらを自分のページに投稿するアプリケーションを構築したいと考えています。1日に数回しかチェックしないので、ここでは何も叩きません.

Reddit json (http://www.reddit.com/.json) およびその他の subreddits json を解析して、自分のトップ リストに整理し、自分のページにも自分のカテゴリを含めることができる URL に変換したいので、 Reddit にアクセスし続ける必要はありません。

Web サイトは、独自のサーバー (mysql) でホストされている DB を持つ Wordpress テンプレートになります。ウェブサーバー用の RDS、ELB、Auto-scaling、および EC2 インスタンスを使用して、これを AWS でホストします。

私の質問は次のとおりです。

- Python スクレイパー アプリケーションを独自のサーバーで実行し続け、スクレイピングした URL をデータベースに書き込むことは理にかなっていますか?

-アプリケーションを分割して、一方が読み取りを行い、もう一方が書き込みを行うのが理にかなっていると聞きましたが、これはどうですか?

- Python コードの流れはどのようになりますか? 手探りで書くことはできますが、どのように流れるべきか完全にはわかりません。

-他に考えていないこと、ヒントはありますか?

4

1 に答える 1

2

Pythonスクレーパーアプリケーションを独自のサーバーで実行し続け、それがスクレイプされたURLをデータベースに書き込むのは理にかなっていますか?

はい、それは良い考えです。プログラムを頻繁に実行するためにcronジョブを設定しました。予想される負荷によっては、必ずしも独自のサーバー上にある必要はありません。私はそれを独自のアプリケーションとして持っているでしょう。

アプリケーションを分割して、一方が読み取りを行い、もう一方が書き込みを行うのは理にかなっていると聞きましたが、これはどうですか?

これを言った人は、データベースに書き込むアプリケーション(Pythonスクリプト)とデータベースからURLを読み取るアプリケーション(WordPressラッパー、またはWordPressが理解できるものを書くための別のPythonスクリプト)が必要だと想定しています。 )。

Pythonコードのフローはどのようになりますか?私はそれを書くことをいじくり回すことができますが、それがどのように流れるべきかについて完全にはわかりません。

これは、プログラマーの間ではやや宗教的な問題です。しかし、あなたのプログラムは十分に単純でなければならないと思います。JSONを取得して、エントリがまだ存在しない場合にデータベースに挿入するクエリを作成します。

ここで他に何を考えていませんか、ヒントはありますか?

私は個人的にPythonスクリプトにurllib2とMySQLdbモジュールを使用します。幸運を!

于 2012-10-23T22:35:50.013 に答える