問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1674 参照

api - その場で特定の URL へのインバウンドリンクを見つける方法は?

Technorarati はCosmos apiを取得しました。これはかなりうまく機能しますが、非商用の使用と 1 日のクエリ数が 500 以下に制限されています。

Yahoo にはSite Explorer InLink Data APIがありますが、これはタスクを文字どおりに定義しており、ブログ コンテンツ内からのリンクだけでなく、ブログ内のサイドバー ウィジェットからのリンクを返します。

特定の URL に誰がリンクしているかを追跡する他の方法はありますか ( Techmeme.comの記事の下に表示されるディスカッション リンクを考えてみてください)。それとも、自分でロールバックする必要がありますか?

0 投票する
3 に答える
559 参照

python - 自動化されたクラスのタイムテーブルはクローラーを最適化しますか?

全体計画

クラス情報を取得して、ユニクラスのタイムテーブルを自動的に最適化して選択します

全体的なアルゴリズム

  1. Enterprise SignOnEngineログインを使用してWebサイトにログオンします
  2. 私の現在の学期とそれに関連する科目を探す(事前設定)
  3. 右のページに移動して、関連する各主題からデータを取得します(講義、実習、ワークショップの時間)
  4. 役に立たない情報のデータを取り除く
  5. 互いに近いクラスを高くランク付けし、ランダムな日のクラスを低くランク付けします
  6. 最良のタイムテーブルソリューションを解決する
  7. BESTCASE情報の詳細リストを出力してください
  8. 可能なクラス情報の詳細なリストを出力してください(たとえば、完全なものもあります)
  9. プログラムを入手して、最適なクラスを自動的に選択します
  10. 7を達成できるかどうかを確認し続けます。

6詳細講義を中心にすべてのクラスを取得し、最高ランク(科目ごとに1つのみ)になり、その周りにクラスを配置してみてください。

質問

誰かが私に、うまくいけばPythonで書かれたこれに似ているかもしれない何かへのリンクを提供できますか?6.に関して:この情報を保存するためにどのデータ構造をお勧めしますか?ユニクラスの各オブジェクトのリンクリスト?すべての情報をテキストファイルに書き込む必要がありますか?

ユニクラスは次の属性のように設定されると思います。

  • 主題
  • ランク
  • 時間
  • タイプ
  • 先生

私はPythonの経験がほとんどなく、これは達成しようとする良い学習プロジェクトになると思いました。私を始めるのに役立つヘルプとリンクを提供してくれてありがとう、適切にタグ付けするための編集、または必要なものを開いてください(これがプログラミングとPython以外に該当するかどうかわかりませんか?)

編集:私がこのSO投稿に必要な適切なフォーマットを実際に取得することはできません> <

0 投票する
5 に答える
2286 参照

php - PHP と XPath によるスクリーン スクレイピング

XPathを使用してデータを抽出するときにテキストの書式を維持する方法を知っている人はいますか?

現在、すべてのブロックを抽出しています

<div class="info"> <h5>title</h5> text <a href="somelink">anchor</a> </div>

ページから。問題は、nodeValue にアクセスすると、プレーン テキストしか取得できないことです。コード内の h5 や静止画など、書式設定を含むコンテンツをキャプチャするにはどうすればよいですか?

前もって感謝します。Googleで考えられるすべての組み合わせを検索しましたが、運がありません.

0 投票する
5 に答える
10200 参照

java - JavaコードをスクレイピングするHTTP画面を自動生成する

Webサービスでは利用できないため、Webサイトから一部のデータをスクリーンスクレイピングする必要があります。以前にこれを行う必要があったときは、ApacheのHTTPクライアントライブラリを使用してJavaコードを自分で作成し、関連するHTTP呼び出しを行ってデータをダウンロードしました。Charles Webプロキシを使用して対応するHTTP呼び出しをログに記録しながら、ブラウザーの関連する画面をクリックして、必要な関連する呼び出しを見つけました。

ご想像のとおり、これはかなり退屈なプロセスであり、ブラウザセッションに対応するJavaコードを実際に生成できるツールがあるかどうか疑問に思っています。生成されたコードは手動で記述されたコードほどきれいではないと思いますが、後でいつでも片付けることができました。そのようなツールが存在するかどうか誰かが知っていますか?セレンは私が知っている可能性の1つですが、この正確なユースケースをサポートしているかどうかはわかりません。

ありがとう、ドン

0 投票する
6 に答える
1911 参照

json - APIを提供することで、画面のスクレイピングを防ぐことができますか?

私は最近、ここでスクリーンスクレイピングとそれがどのようなタスクになるかについてかなり考えています。それで私は次の質問をします。

サイト開発者として、JSONの結果など、ユーザーが画面をスクレイピングするのを防ぐための単純なAPIを公開しますか?

これらの結果はキャッシュを実装する可能性があり、ダウンロードされる可能性のある大量のマークアップよりもトラフィックがはるかに少なくなります。

私は予防を考えていませんが、こすることを思いとどまらせています。


スクレイピング帯域幅サンプル
((users *(%/ 100))*((freq * 60)* 24))*ファイルサイズ

  • ユーザー:200,000
  • ユーティリティを使用しているユーザーの割合:5
  • ファイルサイズ:1kb
  • 周波数:1分

方式:

((users *(%/ 100))*((freq * 60)* 24))*ファイルサイズ

10,000 * 1440 * 1

14400000kbまたは13.73291015625gb

JSONの結果が200バイトであるとすると、現在は(10,000 * 1440 * 0.2)または1日あたり2.74658203125gbになります。

これは、1日あたり約11GBのトラフィックの変化です。


私のStackOverflowプロファイルは参考のために96kです。


この質問の理由により、ユーザープロファイルからJSONの結果を求めるようになりました:
http ://stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information

他の開発者がこのタイプのAPIを公開するかどうか、そして帯域幅を減らすためにこれらのAPIを提供する価値があるかどうかを知りたいと思いました。

0 投票する
1 に答える
7892 参照

python - BeautifulSoup3.1.0.1およびPython2.5.2でのUnicodeEncodeError

BeautifulSoup3.1.0.1とPython2.5.2を使用し、フランス語でWebページを解析しようとしています。ただし、findAllを呼び出すとすぐに、次のエラーが発生します。

UnicodeEncodeError:'ascii'コーデックは位置1146の文字u'\ xe9'をエンコードできません:序数が範囲内にありません(128)

以下は私が現在実行しているコードです:

誰かがその理由を知っていますか?

ありがとう!

更新:要求されたように、以下は完全なトレースバックです

0 投票する
2 に答える
5021 参照

c# - eコマースWebサイトをスキャンし、製品の写真+価格+説明を抽出するC#プログラムを作成する

私はあなたが多くのeコマースウェブサイトで製品を検索することを可能にするeコマース検索エンジンを開発しています。

どうすれば問題に取り組むことができますか?

Webサイトをスキャンし、HTMLを解析して、Webサイト内のどの画像が製品画像であるか、製品の説明であるか、製品の価格であるかを判別できるアプリケーションが必要です。

どんなアイデア、例でも聞いてうれしいです。

前もって感謝します。

編集:私の質問は、WebサイトからHTMLを取得する方法(スクリーンスクレイピングと呼ばれます)ではなく、その情報を解析して、探している実際のデータが含まれているHTMLと含まれていないHTMLを理解する方法についてです。

0 投票する
6 に答える
9225 参照

php - PHPを使ったスクリーンスクレイピングテクニック

特定の Web サイトをスクリーン スクレイピングする方法。Web サイトにログインして、内部情報をスクレイピングする必要があります。これはどのように行うことができますか?

私を案内してください。

重複: PHP で Web スクレイパーを実装するには?

0 投票する
5 に答える
3704 参照

php - PHPでスクリーンスクレイパーを実装するにはどうすればよいですか?

プログラムを介してWebサイトにログインするためのユーザーIDとパスワードを持っています。ログインすると、URLはhttp://localhost/Test/loginpage.htmlからhttp://www.4wtech.com/csp/web/Employee/Login.cspに変更されます。

PHPを使用して2番目のURLからデータを「スクリーンスクレイピング」するにはどうすればよいですか?