“web-scraping”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

1261 参照

python - Python、マルチスレッド、Web ページのフェッチ、Web ページのダウンロード

1 つのサイトで Web ページを一括ダウンロードしたい。「urls.txt」ファイルには 5000000 個の URL リンクがあります。300Mくらいです。マルチスレッドでこれらの URL をリンクし、これらの Web ページをダウンロードするにはどうすればよいですか? またはこれらの Web ページを一括ダウンロードする方法は?

私のアイデア:

またはねじれた？

それに対する良い解決策はありますか？

2010-01-25T19:37:43.337

0 投票する

3 に答える

195763 参照

java - JavaでHTMLを効率的に解析するにはどうすればよいですか?

私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレスブラウザーを使用していました。

ここで、両方のタスクを分離したいと思います。

HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。

どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい

スピード
「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。

汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。

java html parsing html-parsing web-scraping

2010-01-30T16:52:48.033

0 投票する

2 に答える

275 参照

python - Python 入力に基づく動的モジュールのロード

部分的な RSS フィードを取り込んで完全な RSS フィードを出力するプログラムを作成しましたが、これはケースバイケースです。あるサイトのレシピは、他のサイトのレシピと同じではありません。そこで、ドメインのベース名 (nyt や wsj など) を見て、それに基づいてモジュールを選択します。ただし、事前にすべてのモジュールをロードし、各レシピの論理条件を設定する必要があります。

私が必要としているのは、個々のモジュールをそれぞれのフォルダーに配置する方法です。URLベース名を解析するときに、モジュールを探してロードし、何らかのアクションを実行する必要があります。そのため、メインコードベースはモジュールから独立させたいと考えています。将来的にモジュールを追加できるようにしたいのですが、モジュールとやり取りするコードの部分には決して触れないようにしたいと考えています。

これがコード例です

ご覧のとおり、個々のモジュールのパーサーを呼び出します。私は各ウェブサイトに基づいてこれらの多くを持っています。フィードを読み込んで、モジュールを探し、ロードして呼び出し、存在しない場合は報告して、デフォルトの方法を試してください。

python web-scraping

2010-02-01T22:27:27.880

0 投票する

1 に答える

170 参照

asp.net - ASP-ローカルホストで実行中-インターネットに到達できません

ASPMVCコントローラーアクションがあります。Webリクエストを作成しようとしています

「WebExceptionが発生しました」というリモート名を解決できませんでした：'www.example.com'

Fiddlerを起動すると、webrequestが機能します。

追加してみました：

Web.config（htebypassonlocalの有無にかかわらず）に移動しても、それでも機能しません。

助言がありますか？

asp.net asp.net-mvc localhost web-scraping

2010-02-02T16:13:41.410

0 投票する

1 に答える

10238 参照

c# - ASP HttpWebRequest とリダイレクト

OK、クライアントがサーバーにデータを POST 送信しています。サーバーは投稿を受け取り、リダイレクトで応答します。問題は、クライアントがリダイレクトしないことです。また、クライアントが取得するレスポンスの StatusCode を確認してみましたが、常に同じ「OK」です。リダイレクトコードの代わりに。私は何が欠けていますか？

クライアント側では、次のようなものがあります。

サーバー側には、次の行だけがあります。

この場合、クライアントは応答を受け取り、何もしません。

ありがとう。

c#asp.net http web-scraping http-redirect

2010-02-08T15:43:21.943

0 投票する

4 に答える

9034 参照

c# - C＃を使用してHTMLタグを取得する

OK iveはこのコードを取得しました：

ここで、テキストをフィルタリングしてdiv class = "comment"を取得したいのですが、正規表現を使用する以外のオプションはありますか？それともそれが唯一の方法ですか？

ありがとう

c#web-scraping

2010-02-09T13:50:24.227

0 投票する

5 に答える

185 参照

amazon - isbnsが使用されているものを見つける方法

使用されているISBNのリストを見つけようとしています。アマゾンのようなウェブサイトを削ることはできると思いますが、それは多くの帯域幅を浪費するでしょう。より良い（無料の）方法はありますか？

amazon web-scraping isbn

2010-03-03T22:48:29.660

0 投票する

10 に答える

4484 参照

現在、HTML の形式がかなり不適切な Web サイトをスクレイピングしようとしています (多くの場合、終了タグが欠落している、クラスや ID が使用されていないため、必要な要素に直接移動するのが非常に難しいなど)。私はこれまで BeautifulSoup を使用してある程度の成功を収めてきましたが、ときどき (非常にまれですが)、BeautifulSoup が (たとえば) Firefox や Webkit とは少し異なる HTML ツリーを作成するページに出くわします。HTML のフォーマットがあいまいなままであるため、これは理解できますが、Firefox や Webkit が生成するのと同じ解析ツリーを取得できた場合、物事をより簡単に解析できるようになります。問題は通常、サイトがタグを 2 回開き、BeautifulSoup が 2 番目のタグを検出するとすぐに最初のタグを閉じ、Firefox と Webkit がそのタグをネストするようなものです。タグ。

FirefoxまたはWebKitによって生成された解析ツリーを再現できるPython（または他の言語（私は絶望的になっています））のWebスクレイピングライブラリはありますか（または、あいまいな場合は少なくともBeautifulSoupより近くなります）。

python firefox webkit web-scraping

2010-03-07T18:07:24.560

0 投票する

6 に答える

34910 参照

c# - スクリーンスクレイプはどのように行いますか?

利用可能な Web サービス API がない場合、唯一のオプションは Screen Scrape かもしれませんが、C# でどのように行うのでしょうか?

どうやってやると思いますか？

c#web-services api web-scraping

2010-03-11T13:03:53.380

0 投票する

3 に答える

20851 参照

java - Javaアプリケーションのテキスト領域にHTML形式のテキストを表示するには?

Java アプリケーションを使用して Web サイトからデータをスクレイピングしており、Swing で作成されたテキスト領域で HTML ページのコードを解析した後に結果を表示したいと考えています。

次のようなテキストhello everyone: 'hello every one' のようにテキスト領域に表示する必要があります。ありがとう！！

java swing web-scraping

2010-03-14T08:17:51.020

問題タブ [web-scraping]

python - Python、マルチスレッド、Web ページのフェッチ、Web ページのダウンロード

java - JavaでHTMLを効率的に解析するにはどうすればよいですか?

python - Python 入力に基づく動的モジュールのロード

asp.net - ASP-ローカルホストで実行中-インターネットに到達できません

c# - ASP HttpWebRequest とリダイレクト

c# - C＃を使用してHTMLタグを取得する

amazon - isbnsが使用されているものを見つける方法

python - PythonによるWebスクレイピング

c# - スクリーンスクレイプはどのように行いますか?

java - Javaアプリケーションのテキスト領域にHTML形式のテキストを表示するには?

問題タブ [web-scraping]

Reference