問題タブ [rcurl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3155 参照

python - フォームに記入してRでリンクを「クリック」するWebサイトをスクレイピングする方法は?

ドロップダウン リストで 1 つのオプションを選択し、リンクを「クリック」しないとアクセスできない Java スクリプト ページの HTML ソース コードを Web スクレイピングしたいと考えています。Java ではありませんが、簡単な例は次のとおりです。

この URL の下部にあるドロップダウン リストで利用可能なすべての言語でメインのウィキペディア ページを Web スクレイピングします: http://www.wikipedia.org/

そのためには、1 つの言語 (たとえば英語) を選択し、新しい URL (http://en.wikipedia.org/wiki/Special:Search) の左側にある [メイン ページ] リンクを [クリック] する必要があります。 ?search=&go=Go)。

このステップの後、ウィキペディアのメイン ページの HTML ソース コードを英語でスクレイピングします。

Rを使用してこれを行う方法はありますか? RCurl および XML パッケージは既に試しましたが、javascript ページではうまく機能しません。

Rでそれができない場合、誰かがPythonでこれを行う方法を教えてもらえますか?

0 投票する
2 に答える
12449 参照

r - RCurl: サイトが WWW-Authenticate なしで HTTP 401 コードで応答する場合の HTTP 認証

RCurlパッケージを使用してPiCloud の REST APIに R ラッパーを実装し、API サーバーへの HTTP(S) リクエストを作成しています。API は基本 HTTP 認証を使用して、ユーザーが十分な権限を持っていることを確認します。PiCloud のドキュメントには、API を使用して curl で認証する例が示されています。

これは完全に機能します。これを同等の RCurl のコマンドに変換します。

この関数を実行すると、次のエラー メッセージが表示されます。

この問題をさらに詳しく調べてみると、curl コマンドによって作成された HTTP リクエストの最初の GET コマンドに Authorization フィールドが含まれていることがわかりました。

RCurl はこれを行いません。代わりに、最初に認証フィールドを設定せずに GET リクエストを送信します。401 エラー コードと WWW-Authenticate フィールドを含む応答を受信すると、Authorization フィールドを含む別の GET 要求を送信します。

HTTP 仕様では、401 エラー コードを返すメッセージに WWW-Authenticate フィールドを含める必要がありますが、PiCloud API メッセージは必要ありません。したがってgetURL、userpwd オプションを設定して呼び出した場合でも、RCurl は許可フィールドが設定された GET 要求を送信しません。その結果、認証は常に失敗します。

RCurl が送信する最初の GET メッセージで Authorization フィールドを強制的に設定する方法はありますか? そうでない場合、使用を検討できる他の R パッケージはありますか?

0 投票する
1 に答える
393 参照

r - Google ニュースで見つかった tot ページを取得する方法 (Curl のユーザー エージェントは機能しません)?

私のプロジェクトでは、特定のキーワードについて (Google ニュースから) ニュース数の毎日の統計を取得する必要があります。しかし問題は、ブラウザ経由で取得した結果が RCurl 経由で取得した結果とはまったく異なることです。いくつかのオプションが欠けているようです。何をすべきですか?ヒントをお寄せいただきありがとうございます。

これがコードです(すべてではなく、rcurlオプションのみ)が、DPageのコンテンツはブラウザが表示するものとは異なります:( :

0 投票する
1 に答える
1214 参照

r - RCurl を使用して「免責事項ページ」をバイパスし、Web スクレイピングを行う

を使用してデータを抽出したいこのようなリンクがRCurlあります。その前に免責事項のページがあり、データを評価する前にブラウザでクリックする必要があります。以前は、hereからの以下のスクリプトを使用して、免責事項ページを「バイパス」し、次を使用してデータにアクセスしましたRCurl

以前は機能していましたが、ここ数日で機能しなくなりました。実際、コードが何をしているのかよくわかりません。何かを変更する必要があるのcurlOptionsでしょうか、それともコード全体を書き直す必要があるのでしょうか。

ありがとう。

0 投票する
1 に答える
236 参照

xml - 不動産のコーディネートを取得

私の仕事は、できるだけ多くのフラットセルオファーをダウンロードすることです。リンクなどをダウンロードするためのスクリプトがありますが、フラットの座標を取得できません(これは私にとって非常に重要であり、分析の要点です)。

座標はウェブサイトに表示されますが(グーグルマップ要素をチェックすることにより)、ウェブサイトのソースには表示されません。

以下のRコードを使用すると、空のリストが表示されます。XMLまたはRCurlパッケージを使用しても違いはありません。

Rを使用してこれを達成することは可能だと思いますか、それとも他のプログラミング言語(Pythonなど)について考えるべきですか?)

0 投票する
2 に答える
3264 参照

r - R: RCurl と postForm を使用してデータを取得する

Web サイトからデータをスクレイピングしようとしています。これは私が通常 Perl で行うようなことですが、Perl から離れたいと思っています。(私は Perl を否定しているわけではありません。Perl は価値のあるツールでしたが、10 年以上経った今でもこの言語に苦労していることに苦しんでいます。) 私のニーズは単純であり、パフォーマンスが私にとって問題になることはめったにないので、私はそうしたいと思っています。 Web スクレイピングを R に移行します。R はある程度知っていますが、RCurl や同様のライブラリを使用したことはありません。

タスクは、公開されているデータのデータベースをスクレイピングすることです。JS ソースを見て、RCurl postForm リクエストに何を含めるかを考えているだけなので、引数を渡す方法が正確にわからないため、問題は複雑です。以下のコードは明らかなエラーをスローしませんが、有用なものも返しません。

Q. 何が間違っていますか?

[編集済み: 提案された変更を反映するため、まだ解決されていません]

ブラウザを使用する場合、フォームは次のようになります。 ここに画像の説明を入力

そして、上記の設定は(別のページで)これを返します: ここに画像の説明を入力

0 投票する
1 に答える
457 参照

r - 中国語での Google 検索結果のエンコード

全て

私は、Google 検索データ マイニング用のRプログラムに取り組んでいます。
これまでのところ、繁体字中国語のエンコーディングの問題を除けば、私のコードは問題なく動作します。私はLinux環境で作業しています...

だから、私が遭遇した問題はすべてコメントに含まれています。

1) htmlParse()を使用しない場合、抽出されたデータを認識された漢字で表示できません。

2) データをベクトルに変換しようとした場合 ( script <- lapply(url, getURL)を適用して)、str_extract_all()メソッドを使用できますが、エンコードの問題が発生します...

なお、ここでいう中国語とは繁体字中国語のことです

コメントや提案は本当にありがたいです!
前もって感謝します。

0 投票する
2 に答える
5793 参照

r - R: RCurl でスクレイピングされた Web ページから「クリーンな」UTF-8 テキストを抽出する

Rを使用して、日本語のテキストをファイルに保存するWebページをスクレイピングしようとしています。最終的には、これをスケーリングして、毎日数百ページに取り組む必要があります。私はすでに Perl で実行可能なソリューションを持っていますが、スクリプトを R に移行して、複数の言語を切り替える際の認知的負荷を軽減しようとしています。これまでのところ、私は成功していません。関連する質問は、csv ファイルの保存に関するものと、ヘブライ語を HTML ファイルに書き込むことに関するもののようです。ただし、そこにある回答に基づいて解決策をまとめることに成功していません。編集: R からの UTF-8 出力に関するこの質問も関連していますが、解決されていません。

ページは Yahoo! からのものです。Japan Finance と私の Perl コードは次のようになります。

この Perl スクリプトは、以下のスクリーンショットのような CSV ファイルを生成します。このファイルには、オフラインでマイニングおよび操作できる適切な漢字と仮名が含まれています。

Perl スクリプトによって生成された CSV ファイル

私のRコードは、次のようになります。R スクリプトは、HTML を削除してテキストを残さないため、上記の Perl ソリューションの正確な複製ではありません (この回答は R を使用するアプローチを示唆していますが、この場合はうまくいきません)。ループなどはありませんが、意図は同じです。

この R スクリプトは、以下のスクリーンショットに示す出力を生成します。基本ゴミ。

R スクリプトによって生成された CSV ファイル

Perl ソリューションと同様の結果を R で生成できる HTML、テキスト、およびファイル エンコーディングの組み合わせがあると思いますが、それを見つけることができません。スクレイピングしようとしている HTML ページのヘッダーは、チャートセットが utf-8 であり、getURL呼び出しとwrite.table関数のエンコーディングを utf-8 に設定しましたが、これだけでは十分ではありません。

質問 R を使用して上記の Web ページをスクレイピングし、そのテキストを行ノイズのように見えるものではなく、「整形式」の日本語テキストで CSV として保存するにはどうすればよいですか?

編集:ステップを省略したときに何が起こるかを示すために、さらにスクリーンショットを追加しましたEncoding。Unicode コードのように見えるものは得られますが、文字のグラフィック表現は得られません。ある種のロケール関連の問題かもしれませんが、まったく同じロケールで、Perl スクリプトは有用な出力を提供します。ですから、これはまだ不可解です。私のセッション情報: R バージョン 2.15.0 パッチ (2012-05-24 r59442) プラットフォーム: i386-pc-mingw32/i386 (32 ビット) ロケール: 1 LC_COLLATE=English_United Kingdom.1252 2 LC_CTYPE=English_United Kingdom.1252
3 LC_MONETARY =English_United Kingdom.1252 4 LC_NUMERIC=C
5 LC_TIME=English_United Kingdom.1252
添付ベースパッケージ: 1統計 グラフィックス grDevices ユーティリティ データセット メソッド ベース

ここに画像の説明を入力

0 投票する
1 に答える
3618 参照

r - Changing Tor identity in R

I am using Tor in combination with R and would like to change my IP for each new request. The code I have is as follows:

I am able to connect via Tor, however the two lines marked as 'DOES NOT WORK' don't seem to get the proper signal across to Tor, so the IP stays the same.

Regards!

0 投票する
4 に答える
1532 参照

r - Rで「スペース」を「%20」に変換する方法

タイトルを参考に、単語間のスペースを %20 に変換する方法を考えています。

例えば、

作り方y = I%20Love%20You

どうもありがとう。