“scraper”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

682 参照

php - 私のphpページからリンクを削るのをやめる方法

いくつかのリンクとメールIDを含むホームページがあります。そのWebページからURLとメールIDを取得するのをやめる必要があります...robots.txtを使用しましたが、ほとんどの悪いクローラーはそれを尊重しません...。

2010-09-03T10:58:21.657

0 投票する

1 に答える

278 参照

php - 会員サイトからコンテンツをスクレイピングして RSS フィードを生成することはできますか?

メンバーシップサイトからコンテンツをスクレイピングして、受信トレイにインポートする Rss フィードを作成することはできますか?

おわかりのように、私は舞台芸術業界にキャスティングコールを提供するいくつかのサイト (有料のものと無料のもの) のメンバーですが、ほとんどのサイトでは最新のキャスティングコールの更新の Rss フィードが提供されていません。毎日7つの異なるサイトにログインして、最新のキャスティングコールが何であるかを確認してください. スクリプト/プログラムを使用して、これらのページのコンテンツから Rss フィードを作成し、Gmail の受信トレイにインポートできるようにする方法はありますか?

PHPを使用して達成できると確信していますが、自動的にログインする方法がわかりません。

RSS フィードの設定についてサイトの所有者に連絡しましたが、何ヶ月もメールを送信しても返信がありません。

php rss screen scrape scraper

2010-09-28T14:43:33.217

0 投票する

3 に答える

441 参照

php - https経由でXMLデータをインポートします

PHPを使用してhttpsリンクからデータを取得/スクラップすることは可能ですか？

httpsページはユーザー名とパスワードを要求し、XML形式のデータがあります。では、PHPを使用してこのデータを取得することは可能ですか？

php scraper

2010-10-02T06:17:52.940

0 投票する

2 に答える

7517 参照

python - Scrapyパイプラインを機能させることができません

Scrapyフレームワークを使用して作成したスパイダーがあります。パイプラインを機能させるのに問題があります。私のpipelines.pyには次のコードがあります。

私のCrawlSpiderサブクラスには、このクラスのパイプラインをアクティブ化するためのこの行があります。

しかし、私がそれを使用して実行すると

私は言う行を取得します

パイプラインなし（これは、ロギングがパイプラインを出力する場所であると思います）。

ドキュメントを調べてみましたが、何かを見逃していないかどうかを確認するためのプロジェクト全体の完全な例はないようです。

次に何を試すべきかについての提案はありますか？またはどこでさらなるドキュメントを探すべきですか？

python web-crawler pipeline scrapy scraper

2010-11-03T19:21:10.900

0 投票する

1 に答える

4144 参照

python - Python + Mechanize が Delicious で動作しない

Mechanize と Beautiful スープを使用して、Delicious からデータを取得しています

これは、私が投げたほとんどのサイトで機能しますが、Delicious では次の出力で失敗します

python web-crawler mechanize scraper

2010-12-18T02:57:08.947

0 投票する

3 に答える

672 参照

php - データベースチェックが実行されるときに「非オブジェクトのプロパティを取得しようとしています」-PHP

ご挨拶。卸売業者のWebサイトで製品情報を取得し、その情報をデータベースに入力することになっているphpスクリプトがあります。

サンプル製品のすべての情報を正常に収集しました。すべての$v変数の単純なエコーを実行すると、すべてが正しく画面に出力されます。

ここで、製品のカテゴリがデータベースに存在するかどうかを確認するためのチェックを追加し、実際に情報を挿入すると、次のようになります。

[phpBBデバッグ]PHP通知：35行目のファイル/rip.php内：非オブジェクトのプロパティを取得しようとしています[phpBBデバッグ] PHP通知：36行目のファイル/rip.php内：非オブジェクトのプロパティを取得しようとしています[phpBB Debug] PHP通知：ファイル/rip.phpの38行目：未定義のオフセット：3 [phpBB Debug] PHP通知：ファイル/rip.phpの38行目：未定義のオフセット：2 [phpBB Debug] PHP通知：in 41行目のファイル/rip.php：非オブジェクトのプロパティを取得しようとしています致命的なエラー：42行目の/XXXXX/public_html/XXXXX/rip.phpの非オブジェクトでメンバー関数find（）を呼び出します

ただし、製品のすべての情報は引き続きデータベースに入力されます。

スクリプトはページごとに移動して情報を収集することになっていますが、最初の製品の後で停止します。

私はSCChenのSimpleHTMLDOMスクレーパースクリプト（http://sourceforge.net/projects/simplehtmldom/）と、データベース呼び出し用のphpBBのコアシステムを使用しています。これが私のPHPソースです。

これらの通知/エラーをクリアし、スクリプトでページを正しく反復する方法についての提案はありますか？私が見落としているのは非常に単純なことだと私はほぼ確信しています...

php phpbb3 scraper

2010-12-30T22:53:37.780

0 投票する

2 に答える

165 参照

php - PHP アプリケーションの設計

約 100 個の URL を破棄するスクレイパーを実行する必要があります。スクレイパーは、CronJob によって呼び出される PHP CLI で実行する必要があります。私はこれを管理する方法について完全に迷っています...特定のURLのコードを更新する必要があるときに物事を明確にするために、URLごとに新しいファイルを作成することを考えています.

これは良い選択肢でしょうか？では、このすべてのファイルを単一の CronJob から呼び出すことは可能ですか?

php scraper

2011-01-04T10:54:07.060

0 投票する

2 に答える

730 参照

javascript - JavaScript からのデータの抽出 (Python Scraper)

現在、urllib2、pyquery、および json の融合を使用してサイトをスクレイピングしていますが、JavaScript からデータを抽出する必要があることがわかりました。JavaScriptエンジン（V8など）を使用することも考えられますが、それは私が必要としているものにはやり過ぎのようです. 正規表現を使用しますが、この表現は複雑に思えます。

JavaScript:

を抽出する必要がありますが<html>、その方法が完全にはわかりません。それ<html>自体には、基本的に太陽の下のすべての文字を含めることができるため、機能し[^"]ません。

何かご意見は？

javascript python regex web-scraping scraper

2011-01-28T06:28:45.893

0 投票する

1 に答える

512 参照

java - Web をクロールして単語を保存するための最も簡単なツール (Windows プラットフォーム)?

Web ページをクロールし、キーワードをその頻度とともに保存したいと考えています。たとえば、URL: http://www.dmoz.org/Arts/からカテゴリ Arts をクロールし、単語のリストを頻度とともに保存します。だから私は次の出力が欲しい

単語頻度
映画 400
歌 100
雑誌 120

それを達成する最も簡単な方法はどれですか？どの言語のツールやライブラリも非常に役立ちます。

java open-source web-crawler scraper word-frequency

2011-02-02T12:51:58.957

0 投票する

1 に答える

1264 参照

javascript - JavaScript の画面遅延でサイトをスクレイピングする

一瞬の JavaScript 遅延があるサイトをスクレイピングしようとしています。

私は現在、スクレイピングにpythonを使用しています。ページを「取得」するたびに、JavaScript の遅延が終了しておらず、新しい dom がまだ完全にロードされていません。

そのようなページをどのようにスクレイピングしますか?

javascript python screen-scraping web-scraping scraper

2011-02-03T08:05:08.637

問題タブ [scraper]

Reference