問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
754 参照

javascript - 領域を描画するためのJavascriptグラフ作成ライブラリ

熱心なウィンドサーファーとして、私は次の数週間がどれほど風が強くなるかに興味があります。そのために、私は人気のある天気予報サイトをスクレイプし(個人使用のみ-情報などを中継しない)、データを1つのグラフにまとめて、いつ行く価値があるかを簡単に確認できる小さなアプリを作成しています。アウト。

バックエンドは機能していますが、データを表示する方法が必要です。私のスクレーパーは現在、一般的な風の強さと突風の強さを示す2つの一連のデータを提供しています。次に実行したいのは、これら2つのデータセットをグラフの線のペアとして表示し、それらの間の領域に陰影を付けることです。

データを表示するためにflotライブラリのようなものを使用することを検討していました。唯一の問題は、2本の線の間の領域をシェーディングする方法がわからないことです。

誰かがflotや他のライブラリやグラフ作成のテクニックでこれを行う方法の提案を持っているなら(私は私のサーバーにDJangoを持っているので、pythonicやjavascriptyなら何でもいいはずです)、私はそれらを聞いてみたいと思います。理想的には、これは画像を提供する必要をなくすためのjavascriptソリューションになります。

0 投票する
7 に答える
18029 参照

javascript - 多くのJavascriptを含むWebページからのスクリーンスクレイピング

イントラネットのWebページから情報を取得し、そこから特定の情報を見やすい形式で表示するアプリを作成するように依頼されました。Webページは非常に混乱しており、ユーザーは半ダースのアイコンをクリックして、注文したアイテムが到着したか、受け取ったかを確認する必要があります。ご想像のとおり、ユーザーは控えめに言ってもこれを苛立たせます。注文の状態を1つの画面に一覧表示するアプリを誰でも使用できると便利です。

はい、私はより良い解決策がWebアプリを書き直すことであることを知っていますが、それはベンダーに電話することを含み、私たちに少額の費用がかかります。

とにかく、これを調べていると、私がスクレイプしたいWebページはほとんどJavascriptであることがわかりました(ただし、AJAX技術は使用していません)。私がJavascriptでフィードでき、アプリが解析するためにDOMを吐き出すライブラリまたはプログラムが存在するかどうか誰かが知っていますか?

私はほとんどどの言語でもアプリを書くことができますが、私の好みはJavaFXで、それで遊ぶことができます。

御時間ありがとうございます。

イアン

0 投票する
1 に答える
195 参照

c# - リモート アプリケーションの StatusBarWndClass からセル テキストを取得することは可能ですか?

.NET アプリケーションを駆動するために使用したい、ステータス バーにデータがある従来の vb アプリケーションがあります。

私は spy++ を使用してウィンドウ構造をある程度把握し、FindWindow と FindWindowEx を使用して StatusBarWndClass へのハンドルを取得しました。現在、ステータスバーの実際のデータにアクセスするのに苦労しています。WM_GETTEXT メッセージを使用してみましたが、成功しませんでした。

  1. リモートの StatusBarWndClass からセル情報を取得することは可能ですか?
  2. 可能であればどうすればいいですか?
0 投票する
4 に答える
222 参照

screen-scraping - プロプライエタリCMSからリソースを移行する方法は?

アクティブサーバーページを使用する独自のCMSからWebサイトを移行する必要があります。既存のサイトからリソースをダウンロードするのに役立つツールやテクニックはありますか?サイト全体をクロールしてスクレイプするツールを探していると思います。

追加の課題は、サイトがSSLを使用し、フォームベースの認証で保護されていることです。私は必要な資格情報を持っており、セッションを検証するCookieを取得できますが、ここからどこに行くべきかわからないため、既存のツールが役立つ場合は、車輪の再発明をしたくありません。

編集-私はWindowsOSを使用しています

0 投票する
4 に答える
10707 参照

xml - XPathで特定のテーブルを選択する

XHTMLドキュメントがあり、その中のclass="index"を持つ唯一のテーブルを選択したいと思います。

私が正しく理解していれば、子孫軸は現在のノードから直接および間接的にすべてのノードを選択するので、これが私が得たものです。

xmlstarletでテストした場合、機能していないようです。ツールが壊れていませんか、それともXPath式が間違っていますか?

0 投票する
2 に答える
3544 参照

python - 美しいスープとuTidy

utidyの結果を Beautiful Soup に渡したいと思います。

実行すると、次のエラーが発生します。

BeautifulSoup が文字列を要求しているのに対し、utildy は XML ドキュメントを返します。clean_html をキャストする方法はありますか? それとも、私はそれを間違っているので、別のアプローチを取る必要がありますか?

0 投票する
2 に答える
6017 参照

c# - C#でasp.netフォームログインを使用してサイトをスクリーンスクレイピングしますか?

フォームログインで保護されたWebサイトのスクリーンスクレイパーを作成することは可能でしょうか。もちろん、私はサイトにアクセスできますが、サイトにログインして自分の資格情報をC#に保存する方法がわかりません。

また、C#のスクリーンスクレーパーの良い例をいただければ幸いです。

これはすでに行われていますか?

0 投票する
1 に答える
2359 参照

ruby - HTMLスクレイピング問題を機械化する

ruby mechanize と hpricot を使用して自分のウェブサイトのメールを抽出しようとしています。私の管理側のすべてのページでそのループを実行し、 hpricot.so でページを解析しようとしているのはとても良いことです。それから私は得る:

一連のページを解析すると、タイムアウトで始まり、ページのhtmlコードが出力されます。なぜ理解できませんか?どうすればそれをデバッグできますか? 機械化すると10ページ以上連続して取得できるようです?? 出来ますか??ありがとう

end

def extract(page) #puts search.body search=@agent.get( "http://***.com/admin/members.asp?action=search&term=&state_id=&r=500&p=#{page}") doc = Hpricot(search.body)

end

end

puts "starting extacting emails ... "

start =ARGV[0].to_i

h=Harvester.new(186) h.login h.harvest(start)

0 投票する
1 に答える
1209 参照

asp.net - HttpWebResponse を使用してフォームを自動的に送信する方法

以下のことができるアプリを探しています

a)すでに指定されたユーザー名とパスワードを使用して、 HttpWebResponseを使用してページ(login.asxp)にプログラムで自動ログインします。

b) ログインが成功した場合、リダイレクト URL を検出します。

c) 別のフォーム (settings.aspx) を送信して、データベース内の特定のフィールドを更新します。

必要なコーディングには、asp.net を使用する必要があります

アプリケーションは、同じセッション Cookie でこのプロセス全体を完了する必要があります。