問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1018 参照

web-scraping - ウィキペディアの記事名(コンテンツなし)

私はプロジェクトを行っていますが、そのためにすべてのウィキペディアの記事名を知る必要があります(コンテンツは必要ありません)。このデータをダウンロードできる場所はありますか?

0 投票する
2 に答える
743 参照

asp.net - Yahoo Web Scrapes: 制限は何ですか?

私たちはWebスクレイパーを使用しており、ランダム機能が設定されたスリープ機能を持つように設定されています(各スクレイプ間で同じ時間にならないように)が、20〜30回のリクエストの後でもYahooからブロックされています.

制限があるかどうか知っている人はいますか (つまり、1 分あたり 20 リクエスト、1 時間あたり 200 リクエスト) 現在、各リクエスト間の平均は約 3 ~ 6 秒です。助けてくれてありがとう

0 投票する
1 に答える
142 参照

python - Web スクレイピングで使用する名前のソース

Web ページのいくつかのテーブルを分析するために使用できる名前の良いソースを誰か提案できますか?

私がスクレイピングしているテーブルの最初の列には、名前だけ、名前とタイトル、またはタイトルだけがあります。

名前は、ジョン・スミスからヴィクラム・サクセナまでさまざまです。
私は、固有名詞に含まれる単語のコンパイルされたリストを探し回っています。

編集済み国勢調査から設定された名前を試してみましたが、ゴミが多すぎて作業する価値がありません.

0 投票する
1 に答える
601 参照

python - プログラムでハッカーニュース記事に投票しますか?

http://michaelgrinich.com/hackernews/のようなアプリを作成することにしましたが、Androidデバイスの場合、私のアイデアはWebアプリケーションバックエンドを使用します(Androidデバイス用のJavaで完全にコーディングするのではなく、PythonとWeb用にコーディングするため) 。

私が今実装しているのは次のようなものです。

次のステップ(そして私が思う最後のステップ)は投票です。私のデザインは次のようなことをしています。

投票します:

反対票を投じてください。

どうすればいいのかわかりません...ツイルを使うつもりでしたが、ログインリンクはいつも違います。例:

後でAndroidアプリはこのAPIを使用します。

プログラムでハッカーニュースを閲覧した経験はありますか?

0 投票する
1 に答える
3810 参照

vb.net - HttpWebRequest と Get メソッドを使用した PHP 接続

文字列を返すスクリプトがあります:

PHP スクリプト:

このコードを使用して、このスクリプトをVBに接続したい

機能していません。どうやってやるの?

編集:解決策を見つけました

ここ

0 投票する
1 に答える
1309 参照

asp.net - Python を使用した *.aspx コンテンツのスクレイピング

ASPX で動的に生成されたテーブルをスクレイピングするのに問題があります。このGasPricesのようなサイトからガス価格をこすり取ろうとしています。実際のガス価格を除いて、ガス価格表のすべての情報 (住所、提出された時間など) を抽出できます。

ガス代を安くする方法はありますか?つまり、どういうわけかそれのテキスト表現を取得します。私は ASP/ASPX にあまり詳しくありませんが、現在生成されているものが最終的な HTML に表示されません。スクレイピングにはPythonを使用していますが、特定のライブラリがない限り関係ありません...

前もって感謝します。

0 投票する
4 に答える
4746 参照

php - html ドキュメントから特定の部分を抽出する , php cURL , php, preg_match

PHP cURL+preg_match またはその他の関数を使用して Web ページから情報を抽出しようとしていますが、何らかの理由でまったく機能しません。たとえば、このページから、「賃貸する 4 ベッドの家、キャロライン プレイス、ベイズウォーター、W2」というタイトル、「2,300」という価格、および「この素晴らしい...」で始まる説明を抽出したいと考えています。 「(円と区の線)」で終わります。PHP cURL + dom を使用しようとしましたが、「htmlParseEntityRef: Expect ';'」のようなエラーが大量に発生します。エンティティで、行: 243" および結果が表示されない

また、 preg_match または preg_match_all を使用しようとしましたが、どちらも機能しません。

非常に基本的な例は非常に高く評価されます!

0 投票する
2 に答える
751 参照

python - ターミナルを使用してすべての ctrl alt del webcomics をダウンロードする

次のコマンドを使用して、ctrl alt del comics をダウンロードしようとしました。

次のエラーコードが表示されます。bash: syntax error near unexpected token 'do'

このコマンドを使用して、cURLも使用してみました。

次のエラーコードが表示されます。curl: (3) [globbing] error: bad range specification after pos 37

何が問題なのですか? どうすれば修正できますか?

0 投票する
1 に答える
632 参照

facebook - Facebookのファンページの写真のスクレイピング

Facebook ファンページの写真コンテストをファンページに追加したいと考えています。意味は、ppl は写真をアップロードでき、他の人はそれらを気に入ることができるということです。自分の写真に「いいね!」が最も多い人が賞金を獲得します。

今、特定の瞬間にすべての写真のスナップショットを取得する方法について誰かが良いアイデアを知っているかどうか疑問に思っていました. そのため、コンテストを停止したい場合は、すべての人のいいね数の概要を取得できます。

いくつかの優れた Web サイト スクレイピング ツールはありますか? たぶん便利なFacebookアプリ?他の選択肢は?

はじめまして、ダーン

0 投票する
3 に答える
170 参照

php - Cell Minute Tracker はどのように機能しますか?

Cell Minute Tracker がどのようにして AT&T ユーザーのデータを取得できるのかは謎です。たぶん、ここの誰かが長い間待っていた答えを持っています。

彼らがユーザーの携帯電話のレポートをスクレイピングするための確認を得たというより、私は本当に興味があります。

この謎に光を当てることができる誰かを待っています

ありがとう

リンク: http://www.uquery.com/apps/311637771-cell-minute-tracker-for-att