問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 私のphpページからリンクを削るのをやめる方法
いくつかのリンクとメールIDを含むホームページがあります。そのWebページからURLとメールIDを取得するのをやめる必要があります...robots.txtを使用しましたが、ほとんどの悪いクローラーはそれを尊重しません...。
php - 会員サイトからコンテンツをスクレイピングして RSS フィードを生成することはできますか?
メンバーシップ サイトからコンテンツをスクレイピングして、受信トレイにインポートする Rss フィードを作成することはできますか?
おわかりのように、私は舞台芸術業界にキャスティング コールを提供するいくつかのサイト (有料のものと無料のもの) のメンバーですが、ほとんどのサイトでは最新のキャスティング コールの更新の Rss フィードが提供されていません。毎日7つの異なるサイトにログインして、最新のキャスティングコールが何であるかを確認してください. スクリプト/プログラムを使用して、これらのページのコンテンツから Rss フィードを作成し、Gmail の受信トレイにインポートできるようにする方法はありますか?
PHPを使用して達成できると確信していますが、自動的にログインする方法がわかりません。
RSS フィードの設定についてサイトの所有者に連絡しましたが、何ヶ月もメールを送信しても返信がありません。
php - https経由でXMLデータをインポートします
PHPを使用してhttpsリンクからデータを取得/スクラップすることは可能ですか?
httpsページはユーザー名とパスワードを要求し、XML形式のデータがあります。では、PHPを使用してこのデータを取得することは可能ですか?
python - Scrapyパイプラインを機能させることができません
Scrapyフレームワークを使用して作成したスパイダーがあります。パイプラインを機能させるのに問題があります。私のpipelines.pyには次のコードがあります。
私のCrawlSpiderサブクラスには、このクラスのパイプラインをアクティブ化するためのこの行があります。
しかし、私がそれを使用して実行すると
私は言う行を取得します
パイプラインなし(これは、ロギングがパイプラインを出力する場所であると思います)。
ドキュメントを調べてみましたが、何かを見逃していないかどうかを確認するためのプロジェクト全体の完全な例はないようです。
次に何を試すべきかについての提案はありますか?またはどこでさらなるドキュメントを探すべきですか?
python - Python + Mechanize が Delicious で動作しない
Mechanize と Beautiful スープを使用して、Delicious からデータを取得しています
これは、私が投げたほとんどのサイトで機能しますが、Delicious では次の出力で失敗します
php - データベースチェックが実行されるときに「非オブジェクトのプロパティを取得しようとしています」-PHP
ご挨拶。卸売業者のWebサイトで製品情報を取得し、その情報をデータベースに入力することになっているphpスクリプトがあります。
サンプル製品のすべての情報を正常に収集しました。すべての$v変数の単純なエコーを実行すると、すべてが正しく画面に出力されます。
ここで、製品のカテゴリがデータベースに存在するかどうかを確認するためのチェックを追加し、実際に情報を挿入すると、次のようになります。
[phpBBデバッグ]PHP通知:35行目のファイル/rip.php内:非オブジェクトのプロパティを取得しようとしています[phpBBデバッグ] PHP通知:36行目のファイル/rip.php内:非オブジェクトのプロパティを取得しようとしています[phpBB Debug] PHP通知:ファイル/rip.phpの38行目:未定義のオフセット:3 [phpBB Debug] PHP通知:ファイル/rip.phpの38行目:未定義のオフセット:2 [phpBB Debug] PHP通知:in 41行目のファイル/rip.php:非オブジェクトのプロパティを取得しようとしています致命的なエラー:42行目の/XXXXX/public_html/XXXXX/rip.phpの非オブジェクトでメンバー関数find()を呼び出します
ただし、製品のすべての情報は引き続きデータベースに入力されます。
スクリプトはページごとに移動して情報を収集することになっていますが、最初の製品の後で停止します。
私はSCChenのSimpleHTMLDOMスクレーパースクリプト(http://sourceforge.net/projects/simplehtmldom/)と、データベース呼び出し用のphpBBのコアシステムを使用しています。これが私のPHPソースです。
これらの通知/エラーをクリアし、スクリプトでページを正しく反復する方法についての提案はありますか?私が見落としているのは非常に単純なことだと私はほぼ確信しています...
php - PHP アプリケーションの設計
約 100 個の URL を破棄するスクレイパーを実行する必要があります。スクレイパーは、CronJob によって呼び出される PHP CLI で実行する必要があります。私はこれを管理する方法について完全に迷っています...特定のURLのコードを更新する必要があるときに物事を明確にするために、URLごとに新しいファイルを作成することを考えています.
これは良い選択肢でしょうか?では、このすべてのファイルを単一の CronJob から呼び出すことは可能ですか?
javascript - JavaScript からのデータの抽出 (Python Scraper)
現在、urllib2、pyquery、および json の融合を使用してサイトをスクレイピングしていますが、JavaScript からデータを抽出する必要があることがわかりました。JavaScriptエンジン(V8など)を使用することも考えられますが、それは私が必要としているものにはやり過ぎのようです. 正規表現を使用しますが、この表現は複雑に思えます。
JavaScript:
を抽出する必要がありますが<html>
、その方法が完全にはわかりません。それ<html>
自体には、基本的に太陽の下のすべての文字を含めることができるため、機能し[^"]
ません。
何かご意見は?
java - Web をクロールして単語を保存するための最も簡単なツール (Windows プラットフォーム)?
Web ページをクロールし、キーワードをその頻度とともに保存したいと考えています。たとえば、URL: http://www.dmoz.org/Arts/からカテゴリ Arts をクロールし、単語のリストを頻度とともに保存します。だから私は次の出力が欲しい
単語頻度
映画 400
歌 100
雑誌 120
それを達成する最も簡単な方法はどれですか?どの言語のツールやライブラリも非常に役立ちます。
javascript - JavaScript の画面遅延でサイトをスクレイピングする
一瞬の JavaScript 遅延があるサイトをスクレイピングしようとしています。
私は現在、スクレイピングにpythonを使用しています。ページを「取得」するたびに、JavaScript の遅延が終了しておらず、新しい dom がまだ完全にロードされていません。
そのようなページをどのようにスクレイピングしますか?