-2

Web サイトからデータをスクラップ (取得) するにはどうすればよいですか。

例:- www.getfinancialdata.com というサイトがあります。

今、システムからこのWebサイトへのスクリプト/ URLを実行してデータを取得したい

データを並べ替えてスプレッドシートに保存します。

Webページの本文にHTMLコンテンツを表示できる単純なWebサイトでこのことを行いました(ソースコードを表示した後)しかし、ソースを表示すると、DOMデータであることがわかります。単純な HTML コンテンツはありません) データを入力する jquery 関数があります。DOM(Jquery)からデータを取得できますか

4

2 に答える 2

3

Seleniumを使用して、javascript を多く使用するサイトをスクレイピングすることに成功しました。ブラウザに表示される場合は、Selenium で取得できます。これは Java ですが、お気に入りのスクリプト言語から駆動するためのバインディングがあります。私はパイソンを使用しています。

また、 CrowbarPhantomJSなどのヘッドレス ブラウザーを調べることもできます。私が Selenium で気に入っているのは、Selenium がブラウザーを駆動するのを見ることができるので、デバッグに役立つことです。また、開始するためのいくつかの基本的なコードを生成できる Firefox プラグイン (IDE) もあります... クリックするだけで、行ったことを記録します (そのコードは、間違いなく常にマッサージ/大規模な編集が必要になりますが、これを行う方法を学習しているときに役立ちます)。

これは驚くほど難しいことであることに注意してください。特に大規模です。ウェブサイトはごちゃごちゃしていて、それぞれが異なり、時間の経過とともに変化します。これは、あなたの態度に応じて、スクレイピングを腹立たしくするか、楽しい挑戦にします.

于 2012-05-16T02:18:49.483 に答える
0

「www.getfinancialdata.com」が自分で所有している場合は、Web サービスまたは WebAPI を使用してクライアントと通信することをお勧めします。html コードではなく、クリーンな xml データまたは json データが得られます。

于 2012-05-16T02:36:58.853 に答える