問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
682 参照

php - 私のphpページからリンクを削るのをやめる方法

いくつかのリンクとメールIDを含むホームページがあります。そのWebページからURLとメールIDを取得するのをやめる必要があります...robots.txtを使用しましたが、ほとんどの悪いクローラーはそれを尊重しません...。

0 投票する
1 に答える
278 参照

php - 会員サイトからコンテンツをスクレイピングして RSS フィードを生成することはできますか?

メンバーシップ サイトからコンテンツをスクレイピングして、受信トレイにインポートする Rss フィードを作成することはできますか?

おわかりのように、私は舞台芸術業界にキャスティング コールを提供するいくつかのサイト (有料のものと無料のもの) のメンバーですが、ほとんどのサイトでは最新のキャスティング コールの更新の Rss フィードが提供されていません。毎日7つの異なるサイトにログインして、最新のキャスティングコールが何であるかを確認してください. スクリプト/プログラムを使用して、これらのページのコンテンツから Rss フィードを作成し、Gmail の受信トレイにインポートできるようにする方法はありますか?

PHPを使用して達成できると確信していますが、自動的にログインする方法がわかりません。

RSS フィードの設定についてサイトの所有者に連絡しましたが、何ヶ月もメールを送信しても返信がありません。

0 投票する
3 に答える
441 参照

php - https経由でXMLデータをインポートします

PHPを使用してhttpsリンクからデータを取得/スクラップすることは可能ですか?

httpsページはユーザー名とパスワードを要求し、XML形式のデータがあります。では、PHPを使用してこのデータを取得することは可能ですか?

0 投票する
2 に答える
7517 参照

python - Scrapyパイプラインを機能させることができません

Scrapyフレームワークを使用して作成したスパイダーがあります。パイプラインを機能させるのに問題があります。私のpipelines.pyには次のコードがあります。

私のCrawlSpiderサブクラスには、このクラスのパイプラインをアクティブ化するためのこの行があります。

しかし、私がそれを使用して実行すると

私は言う行を取得します

パイプラインなし(これは、ロギングがパイプラインを出力する場所であると思います)。

ドキュメントを調べてみましたが、何かを見逃していないかどうかを確認するためのプロジェクト全体の完全な例はないようです。

次に何を試すべきかについての提案はありますか?またはどこでさらなるドキュメントを探すべきですか?

0 投票する
1 に答える
4144 参照

python - Python + Mechanize が Delicious で動作しない

Mechanize と Beautiful スープを使用して、Delicious からデータを取得しています

これは、私が投げたほとんどのサイトで機能しますが、Delicious では次の出力で失敗します

0 投票する
3 に答える
672 参照

php - データベースチェックが実行されるときに「非オブジェクトのプロパティを取得しようとしています」-PHP

ご挨拶。卸売業者のWebサイトで製品情報を取得し、その情報をデータベースに入力することになっているphpスクリプトがあります。

サンプル製品のすべての情報を正常に収集しました。すべての$v変数の単純なエコーを実行すると、すべてが正しく画面に出力されます。

ここで、製品のカテゴリがデータベースに存在するかどうかを確認するためのチェックを追加し、実際に情報を挿入すると、次のようになります。

[phpBBデバッグ]PHP通知:35行目のファイル/rip.php内:非オブジェクトのプロパティを取得しようとしています[phpBBデバッグ] PHP通知:36行目のファイル/rip.php内:非オブジェクトのプロパティを取得しようとしています[phpBB Debug] PHP通知:ファイル/rip.phpの38行目:未定義のオフセット:3 [phpBB Debug] PHP通知:ファイル/rip.phpの38行目:未定義のオフセット:2 [phpBB Debug] PHP通知:in 41行目のファイル/rip.php:非オブジェクトのプロパティを取得しようとしています致命的なエラー:42行目の/XXXXX/public_html/XXXXX/rip.phpの非オブジェクトでメンバー関数find()を呼び出します

ただし、製品のすべての情報は引き続きデータベースに入力されます。

スクリプトはページごとに移動して情報を収集することになっていますが、最初の製品の後で停止します。

私はSCChenのSimpleHTMLDOMスクレーパースクリプト(http://sourceforge.net/projects/simplehtmldom/)と、データベース呼び出し用のphpBBのコアシステムを使用しています。これが私のPHPソースです。

これらの通知/エラーをクリアし、スクリプトでページを正しく反復する方法についての提案はありますか?私が見落としているのは非常に単純なことだと私はほぼ確信しています...

0 投票する
2 に答える
165 参照

php - PHP アプリケーションの設計

約 100 個の URL を破棄するスクレイパーを実行する必要があります。スクレイパーは、CronJob によって呼び出される PHP CLI で実行する必要があります。私はこれを管理する方法について完全に迷っています...特定のURLのコードを更新する必要があるときに物事を明確にするために、URLごとに新しいファイルを作成することを考えています.

これは良い選択肢でしょうか?では、このすべてのファイルを単一の CronJob から呼び出すことは可能ですか?

0 投票する
2 に答える
730 参照

javascript - JavaScript からのデータの抽出 (Python Scraper)

現在、urllib2、pyquery、および json の融合を使用してサイトをスクレイピングしていますが、JavaScript からデータを抽出する必要があることがわかりました。JavaScriptエンジン(V8など)を使用することも考えられますが、それは私が必要としているものにはやり過ぎのようです. 正規表現を使用しますが、この表現は複雑に思えます。

JavaScript:

を抽出する必要がありますが<html>、その方法が完全にはわかりません。それ<html>自体には、基本的に太陽の下のすべての文字を含めることができるため、機能し[^"]ません。

何かご意見は?

0 投票する
1 に答える
512 参照

java - Web をクロールして単語を保存するための最も簡単なツール (Windows プラットフォーム)?

Web ページをクロールし、キーワードをその頻度とともに保存したいと考えています。たとえば、URL: http://www.dmoz.org/Arts/からカテゴリ Arts をクロールし、単語のリストを頻度とともに保存します。だから私は次の出力が欲しい

単語頻度
映画 400
歌 100
雑誌 120

それを達成する最も簡単な方法はどれですか?どの言語のツールやライブラリも非常に役立ちます。

0 投票する
1 に答える
1264 参照

javascript - JavaScript の画面遅延でサイトをスクレイピングする

一瞬の JavaScript 遅延があるサイトをスクレイピングしようとしています。

私は現在、スクレイピングにpythonを使用しています。ページを「取得」するたびに、JavaScript の遅延が終了しておらず、新しい dom がまだ完全にロードされていません。

そのようなページをどのようにスクレイピングしますか?