html - open.connection(x,"rb") のエラー: HTTP エラー 406

Question

read_htmlRを使用して Web サイトのコンテンツを読み取ろうとしています。ただし、のような一部の Web サイトではhttp://benchmarkrealestate.com/、このエラーが発生します。Error in open.connection(x,"rb") : HTTP error 406

このエラーはどういう意味ですか? これは、一部の Web サイトでのみ発生します。オンラインで調べてみましたが、このエラーが発生する正確な理由を見つけることができませんでした。

これを修正するにはどうすればよいですか?

score 1 · Accepted Answer

406 受け入れられない

要求されたリソースは、要求で送信された Accept ヘッダーに従って受け入れられないコンテンツのみを生成できます。

上記の文は、ウィキペディアからそのまま引用されています。

基本的に、Web クローラーは Web サイトにリクエストを送信するたびに、特徴的な識別文字列を Web サーバーなどのオペレーティングピアに送信することで、自身、アプリケーションタイプ、およびその他の情報を識別します。この場合、この ID はUser-Agentというヘッダーフィールドで送信されます。

Web ページのコンテンツをコンソールに返す 1 つの方法は、パッケージを使用してユーザーエージェント情報を識別可能なものに設定することです。curl

library(xml2)
library(rvest)
library(curl)

web_content <- read_html(curl('http://benchmarkrealestate.com/', handle = new_handle("useragent" = "Mozilla/5.0")))

また、ヘッダーフィールドについても読みたいと思うかもしれません。

html - open.connection(x,"rb") のエラー: HTTP エラー 406

1 に答える 1

406 受け入れられない

Related

Reference