2

RCurl を XML パッケージと共に使用して、WSJ (ウォール ストリート ジャーナル) から記事をダウンロードしてマイニングしようとしています。ただし、RCurl から getURL を使用するときはいつでも、パブリック ビューアーが利用できる記事のバージョンを取得します。

私ができるようにしたいのは、記事の完全版をダウンロードすることです-私は有料会員です. 関数getURLを呼び出すときに、ログイン資格情報を渡す必要があると思いますが、その方法がわかりません..

  1. この情報は Cookie に保存されますか?
  2. 「認証」する必要がありますか-違いが何であれ(おそらく目的で)?

WSJ などの Web サイトがログイン情報を使用してデータを取得する方法と、そのような情報を考慮に入れるために RCurl を微調整する方法を誰かが説明してくれれば幸いです。非常に単純な例は、Cookie (ファイル、jar、..) などを設定するさまざまな概念を説明するのに大いに役立ちます。

前もって感謝します

4

1 に答える 1

1

通常、認証情報は Cookie に保存されません。代わりに、「セッション Cookie」がコンピューターに保存され、サーバーに保存されている認証を参照します。もう少し詳しい情報と指針については、ウィキペディアのセッション管理の記事を参照してください。

したがって、基本的には、このサイト用の Cookie jar ファイルを作成し、curl でログインする必要があります (WSJ は標準のフォームベースの POST を使用せず、代わりに JavaScript に依存しているため、これは面倒な場合があります)。記事の次のリクエストで Cookie を再利用するよう curl に指示します。この回答を読んで、実際にそれを行う方法を確認してください。

于 2013-10-14T15:08:03.710 に答える