フィードアグリゲーターを作成しています。私はブログをクロールし、時々1時間ごとまたは2時間ごとに、新しい投稿があるかどうかを確認します。私はこれにSimplepieを使用しています。
Simplepieが持っているカスタムユーザーエージェントを変更する必要があるかどうか知りたいです(SIMPLEPIE_USERAGENT
)。また、変更する必要がある場合のユーザーエージェントのベストプラクティスは何ですか。ありがとう!
はい、そうする必要があります。そうしないと、SimplePieメンテナ(つまり私:))に不平を言う可能性があります。カスタムユーザーエージェントを使用すると、何かが壊れた場合に誰に連絡するかを知ることができます。
理想的な形式は「YourProgramName/ 1.0」で、1.0がバージョンです。URL(その場合はその前に+を付ける)と連絡先アドレスを含めて、「プログラム名/1.0(+http://example.com/)」にすることもできます。
変更する必要がありますか?まあ、それはあなたがしていることに依存します。一部のサイトは、UAに基づいてあなたをブロックします。そうです。
データをスクレイピングしようとしていて、ルールに従うことを気にしない場合は、データを好きなように変更できます。
ベストプラクティスは、自分自身を識別し、robots.txtに従うことです
私は常にアプリの名前をユーザーエージェントとして指定します。これにより、スクリプトによってサーバーに問題が発生した場合に、サーバー管理者から連絡を受けることができます。(これが誰もが気にする唯一の理由です)