いくつかの PDF ドキュメントをテキストマイニングして抽出した URL がたくさんあります。次に、URL の有効性をテストします。一部の URL にジャンク文字が含まれているか追加されているか、URL が切り捨てられています。1 つの方法は、それぞれを呼び出してフィルタリングすることです。
url.exists()
そのために、RCurl パッケージの関数を使用し ます。この関数は、curl を使用して URL への HTTP HEAD リクエストを作成し、ステータス コードをチェックします。
のドキュメントから?url.exists
If ‘.header’ is ‘FALSE’, this returns ‘TRUE’ or ‘FALSE’ indicating
whether the request was successful (had a status with a value in
the 200 range).
リダイレクトを発行する URL に対して TRUE を返すようにするにはどうすればよいですか? リダイレクト ステータス コードは 300 の範囲です。それらは実際にはエラーではありません。
それとももっと良い方法がありますか?実際のステータスコードを取得して手動で処理しますか? ここでシステムコマンドを使用する必要がありますか?