問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1261 参照

python - Python、マルチスレッド、Web ページのフェッチ、Web ページのダウンロード

1 つのサイトで Web ページを一括ダウンロードしたい。「urls.txt」ファイルには 5000000 個の URL リンクがあります。300Mくらいです。マルチスレッドでこれらの URL をリンクし、これらの Web ページをダウンロードするにはどうすればよいですか? またはこれらの Web ページを一括ダウンロードする方法は?

私のアイデア:

またはねじれた?

それに対する良い解決策はありますか?

0 投票する
3 に答える
195763 参照

java - JavaでHTMLを効率的に解析するにはどうすればよいですか?

私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレス ブラウザーを使用していました。

ここで、両方のタスクを分離したいと思います。

HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。

どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい

  1. スピード
  2. 「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。

汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。

0 投票する
2 に答える
275 参照

python - Python 入力に基づく動的モジュールのロード

部分的な RSS フィードを取り込んで完全な RSS フィードを出力するプログラムを作成しましたが、これはケースバイケースです。あるサイトのレシピは、他のサイトのレシピと同じではありません。そこで、ドメインのベース名 (nyt や wsj など) を見て、それに基づいてモジュールを選択します。ただし、事前にすべてのモジュールをロードし、各レシピの論理条件を設定する必要があります。

私が必要としているのは、個々のモジュールをそれぞれのフォルダーに配置する方法です。URLベース名を解析するときに、モジュールを探してロードし、何らかのアクションを実行する必要があります。そのため、メイン コード ベースはモジュールから独立させたいと考えています。将来的にモジュールを追加できるようにしたいのですが、モジュールとやり取りするコードの部分には決して触れないようにしたいと考えています。

これがコード例です

ご覧のとおり、個々のモジュールのパーサーを呼び出します。私は各ウェブサイトに基づいてこれらの多くを持っています。フィードを読み込んで、モジュールを探し、ロードして呼び出し、存在しない場合は報告して、デフォルトの方法を試してください。

0 投票する
1 に答える
170 参照

asp.net - ASP-ローカルホストで実行中-インターネットに到達できません

ASPMVCコントローラーアクションがあります。Webリクエストを作成しようとしています

「WebExceptionが発生しました」というリモート名を解決できませんでした:'www.example.com'

Fiddlerを起動すると、webrequestが機能します。

追加してみました:

Web.config(htebypassonlocalの有無にかかわらず)に移動しても、それでも機能しません。

助言がありますか?

0 投票する
1 に答える
10238 参照

c# - ASP HttpWebRequest とリダイレクト

OK、クライアントがサーバーにデータを POST 送信しています。サーバーは投稿を受け取り、リダイレクトで応答します。問題は、クライアントがリダイレクトしないことです。また、クライアントが取得するレスポンスの StatusCode を確認してみましたが、常に同じ「OK」です。リダイレクト コードの代わりに。私は何が欠けていますか?

クライアント側では、次のようなものがあります。

サーバー側には、次の行だけがあります。

この場合、クライアントは応答を受け取り、何もしません。

ありがとう。

0 投票する
4 に答える
9034 参照

c# - C#を使用してHTMLタグを取得する

OK iveはこのコードを取得しました:

ここで、テキストをフィルタリングしてdiv class = "comment"を取得したいのですが、正規表現を使用する以外のオプションはありますか?それともそれが唯一の方法ですか?

ありがとう

0 投票する
5 に答える
185 参照

amazon - isbnsが使用されているものを見つける方法

使用されているISBNのリストを見つけようとしています。アマゾンのようなウェブサイトを削ることはできると思いますが、それは多くの帯域幅を浪費するでしょう。より良い(無料の)方法はありますか?

0 投票する
10 に答える
4484 参照

python - PythonによるWebスクレイピング

現在、HTML の形式がかなり不適切な Web サイトをスクレイピングしようとしています (多くの場合、終了タグが欠落している、クラスや ID が使用されていないため、必要な要素に直接移動するのが非常に難しいなど)。私はこれまで BeautifulSoup を使用してある程度の成功を収めてきましたが、ときどき (非常にまれですが)、BeautifulSoup が (たとえば) Firefox や Webkit とは少し異なる HTML ツリーを作成するページに出くわします。HTML のフォーマットがあいまいなままであるため、これは理解できますが、Firefox や Webkit が生成するのと同じ解析ツリーを取得できた場合、物事をより簡単に解析できるようになります。問題は通常、サイトが<b>タグを 2 回開き、BeautifulSoup が 2 番目の<b>タグを検出するとすぐに最初のタグを閉じ、Firefox と Webkit がそのタグをネストするようなものです。<b>タグ。

FirefoxまたはWebKitによって生成された解析ツリーを再現できるPython(または他の言語(私は絶望的になっています))のWebスクレイピングライブラリはありますか(または、あいまいな場合は少なくともBeautifulSoupより近くなります)。

0 投票する
6 に答える
34910 参照

c# - スクリーンスクレイプはどのように行いますか?

利用可能な Web サービス API がない場合、唯一のオプションは Screen Scrape かもしれませんが、C# でどのように行うのでしょうか?

どうやってやると思いますか?

0 投票する
3 に答える
20851 参照

java - Javaアプリケーションのテキスト領域にHTML形式のテキストを表示するには?

Java アプリケーションを使用して Web サイトからデータをスクレイピングしており、Swing で作成されたテキスト領域で HTML ページのコードを解析した後に結果を表示したいと考えています。

次のようなテキストhello <b>every</b>one: 'hello every one' のようにテキスト領域に表示する必要があります。ありがとう!!