問題タブ [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python、マルチスレッド、Web ページのフェッチ、Web ページのダウンロード
1 つのサイトで Web ページを一括ダウンロードしたい。「urls.txt」ファイルには 5000000 個の URL リンクがあります。300Mくらいです。マルチスレッドでこれらの URL をリンクし、これらの Web ページをダウンロードするにはどうすればよいですか? またはこれらの Web ページを一括ダウンロードする方法は?
私のアイデア:
またはねじれた?
それに対する良い解決策はありますか?
java - JavaでHTMLを効率的に解析するにはどうすればよいですか?
私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレス ブラウザーを使用していました。
ここで、両方のタスクを分離したいと思います。
HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。
どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい
- スピード
- 「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。
汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。
python - Python 入力に基づく動的モジュールのロード
部分的な RSS フィードを取り込んで完全な RSS フィードを出力するプログラムを作成しましたが、これはケースバイケースです。あるサイトのレシピは、他のサイトのレシピと同じではありません。そこで、ドメインのベース名 (nyt や wsj など) を見て、それに基づいてモジュールを選択します。ただし、事前にすべてのモジュールをロードし、各レシピの論理条件を設定する必要があります。
私が必要としているのは、個々のモジュールをそれぞれのフォルダーに配置する方法です。URLベース名を解析するときに、モジュールを探してロードし、何らかのアクションを実行する必要があります。そのため、メイン コード ベースはモジュールから独立させたいと考えています。将来的にモジュールを追加できるようにしたいのですが、モジュールとやり取りするコードの部分には決して触れないようにしたいと考えています。
これがコード例です
ご覧のとおり、個々のモジュールのパーサーを呼び出します。私は各ウェブサイトに基づいてこれらの多くを持っています。フィードを読み込んで、モジュールを探し、ロードして呼び出し、存在しない場合は報告して、デフォルトの方法を試してください。
asp.net - ASP-ローカルホストで実行中-インターネットに到達できません
ASPMVCコントローラーアクションがあります。Webリクエストを作成しようとしています
「WebExceptionが発生しました」というリモート名を解決できませんでした:'www.example.com'
Fiddlerを起動すると、webrequestが機能します。
追加してみました:
Web.config(htebypassonlocalの有無にかかわらず)に移動しても、それでも機能しません。
助言がありますか?
c# - ASP HttpWebRequest とリダイレクト
OK、クライアントがサーバーにデータを POST 送信しています。サーバーは投稿を受け取り、リダイレクトで応答します。問題は、クライアントがリダイレクトしないことです。また、クライアントが取得するレスポンスの StatusCode を確認してみましたが、常に同じ「OK」です。リダイレクト コードの代わりに。私は何が欠けていますか?
クライアント側では、次のようなものがあります。
サーバー側には、次の行だけがあります。
この場合、クライアントは応答を受け取り、何もしません。
ありがとう。
c# - C#を使用してHTMLタグを取得する
OK iveはこのコードを取得しました:
ここで、テキストをフィルタリングしてdiv class = "comment"を取得したいのですが、正規表現を使用する以外のオプションはありますか?それともそれが唯一の方法ですか?
ありがとう
amazon - isbnsが使用されているものを見つける方法
使用されているISBNのリストを見つけようとしています。アマゾンのようなウェブサイトを削ることはできると思いますが、それは多くの帯域幅を浪費するでしょう。より良い(無料の)方法はありますか?
python - PythonによるWebスクレイピング
現在、HTML の形式がかなり不適切な Web サイトをスクレイピングしようとしています (多くの場合、終了タグが欠落している、クラスや ID が使用されていないため、必要な要素に直接移動するのが非常に難しいなど)。私はこれまで BeautifulSoup を使用してある程度の成功を収めてきましたが、ときどき (非常にまれですが)、BeautifulSoup が (たとえば) Firefox や Webkit とは少し異なる HTML ツリーを作成するページに出くわします。HTML のフォーマットがあいまいなままであるため、これは理解できますが、Firefox や Webkit が生成するのと同じ解析ツリーを取得できた場合、物事をより簡単に解析できるようになります。問題は通常、サイトが<b>
タグを 2 回開き、BeautifulSoup が 2 番目の<b>
タグを検出するとすぐに最初のタグを閉じ、Firefox と Webkit がそのタグをネストするようなものです。<b>
タグ。
FirefoxまたはWebKitによって生成された解析ツリーを再現できるPython(または他の言語(私は絶望的になっています))のWebスクレイピングライブラリはありますか(または、あいまいな場合は少なくともBeautifulSoupより近くなります)。
c# - スクリーンスクレイプはどのように行いますか?
利用可能な Web サービス API がない場合、唯一のオプションは Screen Scrape かもしれませんが、C# でどのように行うのでしょうか?
どうやってやると思いますか?
java - Javaアプリケーションのテキスト領域にHTML形式のテキストを表示するには?
Java アプリケーションを使用して Web サイトからデータをスクレイピングしており、Swing で作成されたテキスト領域で HTML ページのコードを解析した後に結果を表示したいと考えています。
次のようなテキストhello <b>every</b>one
: 'hello every one' のようにテキスト領域に表示する必要があります。ありがとう!!