0

「欲しい」ボタンと「自分の」ボタンを開発しようとしています。

Facebook デバッグ ツールを使用すると、最終的な URL がホームページであることがわかります。これは、ページがリダイレクトされたために発生したものであり、望ましくありません。取得した URL をスクレイピングしたい。

最終 URLがアイテム ページではないため、スクレイピングされた情報が正しくなく、デバッグ ツールがメタデータの不足などを訴えます。正しい情報はアイテム ページにあると思いますが、リダイレクトにより、誤った情報が表示されます。解析されました。

私の質問は次のとおりです。

1) なぜこれが起こっているのですか? -回答: 末尾のスラッシュが ISAPI ルールに違反しています

2) どうすれば修正できますか? -回答: 末尾のスラッシュを削除するか、ISAPI ルールを更新してください

3) スクレイパーに特定の URL を使用させ、リダイレクトを無視させることはできますか? 私はasp.netを使用しているので、どんな例でも大歓迎です。

以前は正しいページがスクレイピングされていましたが、現在はそうではなく、何がこれを変更したのか本当にわかりません....

前もって感謝します。

4

1 に答える 1

0

デバッグ ツールによると、Facebook がページをスクレイピングしようとすると、ページに 302 リダイレクトが発生します。

URLS REMOVED

なぜこれが起こっているのかを調べて無効にする必要があります。その結果、Facebook が間違った URL をスクレイピングする原因となっています。修正が完了すると、ページは正しくスクレイピングされるはずです。

于 2012-07-23T17:16:21.633 に答える