-1

read_htmlRを使用して Web サイトのコンテンツを読み取ろうとしています。ただし、のような一部の Web サイトではhttp://benchmarkrealestate.com/、このエラーが発生します。Error in open.connection(x,"rb") : HTTP error 406

このエラーはどういう意味ですか? これは、一部の Web サイトでのみ発生します。オンラインで調べてみましたが、このエラーが発生する正確な理由を見つけることができませんでした。

これを修正するにはどうすればよいですか?

4

1 に答える 1

1

406 受け入れられない

要求されたリソースは、要求で送信された Accept ヘッダーに従って受け入れられないコンテンツのみを生成できます。

上記の文は、ウィキペディアからそのまま引用されています。

基本的に、Web クローラーは Web サイトにリクエストを送信するたびに、特徴的な識別文字列を Web サーバーなどのオペレーティング ピアに送信することで、自身、アプリケーション タイプ、およびその他の情報を識別します。この場合、この ID はUser-Agentというヘッダー フィールドで送信されます。

Web ページのコンテンツをコンソールに返す 1 つの方法は、パッケージを使用してユーザー エージェント情報を識別可能なものに設定することです。curl

library(xml2)
library(rvest)
library(curl)

web_content <- read_html(curl('http://benchmarkrealestate.com/', handle = new_handle("useragent" = "Mozilla/5.0")))

また、ヘッダー フィールドについても読みたいと思うかもしれません。

于 2016-07-28T01:14:48.570 に答える