RCurl を XML パッケージと共に使用して、WSJ (ウォール ストリート ジャーナル) から記事をダウンロードしてマイニングしようとしています。ただし、RCurl から getURL を使用するときはいつでも、パブリック ビューアーが利用できる記事のバージョンを取得します。
私ができるようにしたいのは、記事の完全版をダウンロードすることです-私は有料会員です. 関数getURLを呼び出すときに、ログイン資格情報を渡す必要があると思いますが、その方法がわかりません..
- この情報は Cookie に保存されますか?
- 「認証」する必要がありますか-違いが何であれ(おそらく目的で)?
WSJ などの Web サイトがログイン情報を使用してデータを取得する方法と、そのような情報を考慮に入れるために RCurl を微調整する方法を誰かが説明してくれれば幸いです。非常に単純な例は、Cookie (ファイル、jar、..) などを設定するさまざまな概念を説明するのに大いに役立ちます。
前もって感謝します