問題タブ [phpcrawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPCrawl で特定のドメインの Cookie を設定する
Web サイトのクロールにPHPCrawlを使用していますが、特定のドメインに Cookie を追加したいと考えています。このドメインには認証があり、許可されたページの情報を取得したいからです。
特定のドメインに Cookie を追加するにはどうすればよいですか?
php - PHPCrawl: サイトマップをサーバー上の XML ファイルに出力
Web サイトのサイトマップに PHPCrawl を使用しようとしています。ただし、サーバー上のxmlサイトマップに出力しようとすると問題が発生します。何か助けはありますか?
xpath - PHPCrawl は Web サイトのスクレイピングに使用できますか? また、Scrapy との違いは何ですか?
いくつかの Web サイトをスクレイピングしたいのですが、多くの Web サイトが提案されてScrapy
います。これは Python ベースであり、私は PHP に精通しているので、代替手段を探しました。
クローラーを手に入れましたPHPCrawl
。それが単なるクローラーなのか、スクレイピング機能も提供するのかはわかりません。スクレイピングに使用できる場合、XPath または正規表現をサポートしますか。
Scrapy
Python にあるものとどのように比較できますか。
ウェブサイトのスクレイピングに最適なものを教えてください。
ありがとう
web-crawler - how to crawl a single page and not any links contained in it and output the source?
I am using phpcrawl
and below is the code. I want to crawl the mentioned link and get all the jobs.
Now, I am crawling it by passing the link but it crawling all the links what we see in page-source view. But I want to see the source of only the link I passed and use xpath for achieving scraping the jobs.
php - PHPCrawlerを使用して、PHPで特定のタグとコンテンツを削除するにはどうすればよいですか?
私は現在、サイトのいくつかの検索機能にPHPCrawlerを使用しています。一部のページ要素をインデックスから削除する必要があります。
たとえば、私は以下を使用しました:
結果にリストが必要ないため、リストを削除します。これは、正しく機能します。
さて、私が削除する必要があるもう一つのことは次のとおりです:
だからこれのために私は試しました:
すべてのページにdivクラスの例があるとは限らないため、エラーが発生します。だから私はそれを次のコードで適応させました:
残念ながら、それも機能しません!エラーは発生しませんが、結果からすべてのコンテンツが削除されるわけではありません。
phpcrawlerまたはDomdocumentのいずれかを使用するのはこれが初めてです...ここでの私の問題がそれらと関係があるかどうかはわかりませんが?
php - データを解析するための simplehtmldom を使用した PHPCrawl
PHPCrawl を使用して URL をクロールして収集し、simplehtmldom にフィードして html から必要なデータを取得し、mysql データベースに保存しようとしています。現在、エラーが発生しています
**
致命的なエラー: 44 行目の /home/content/54/11109254/html/PHPCrawl_081/skunktest.php の未定義メソッド simple_html_dom::find() の呼び出し
**
誰かが私が間違ったことを手伝ってくれますか?
php - PHPCrawl を使用してサイトから特定のデータを取得する方法
データを受信したい Web サイトに PHPCrawl を使用していますが、(たとえば) 特定のクラスを持つスパンからデータを取得することをどこから始めればよいかわかりません。
例ごとに、このスパンから「Jan」という名前を取得したいと思います。
DOMDocument() と DOMXPath() を使用してみましたが、html 文字列をロードするときにエラーが発生します。
だからここに私がこれまで持っていたものがあります:
ただし、これを使用すると、次のようなエラーが発生します。
HTMLコードを変更できないため(これはPHPCrawlによって抽出されます)、何か他のことをする必要があります。しかし、私は何を知りません。PHPCrawl 自体にそのためのツールはありますか?
javascript - cronjob でクローラー スクリプトを最適化する
MySQL テーブルに約 6,600 万のドメインがあり、すべてのドメインでクローラーを実行し、クローラーが完了したら行数 = 1 を更新する必要があります。
クローラー スクリプトは、php クローラー ライブラリを使用して php にあります。ここにスクリプトがあります。
$this->urls->incrementCount(); 行のみを更新し、カウント列をマークする = 1
66M のドメインがあるため、サーバーで cronjob を実行する必要があり、cronjob はコマンド ラインで実行されるため、ヘッドレス ブラウザーが必要だったので、ヘッドレス ブラウザー (phantomjs) がないと動作するようにクローラーが動作しないため、phanjomjs を選択しました。
私が直面した最初の問題は、mysql dbからドメインをロードし、jsスクリプトからクローラースクリプトを実行することでした。
- json 形式でドメインを返す php スクリプトを作成し、それを js ファイルからロードし、ドメインを foreach してクローラーを実行しましたが、うまく機能せず、しばらくすると動かなくなりました。
- 次に試したのは、まだ使用している Python スクリプトを作成して、mysql db からドメインを直接ロードし、Python スクリプトから各ドメインでファントム js スクリプトを実行することです。
ここにコードがあります
データベースからドメインを選択する制限を設定するには、2 つの引数が必要です。
foreach ドメインを作成し、サブプロセスを使用してこのコマンドを実行します
crawler2.js ファイルも 2 つの引数を取ります。1 つはドメインで、2 番目は更新する ID です。クローラーが完了したときは = 1 です。これは、crawler2.js です。
それはうまくいきますが、しばらくするとスクリプトが動かなくなり、しばらくしてから再起動する必要があり、ログには何も問題がありません
このプロセスを最適化し、できるだけ早くクローラーを実行する必要があります。
symfony - PHPCrawl - クラス「PHPCrawlerUtils」でメソッド「getURIContent」を呼び出そうとしました
Symfony2 で PHPCrawl を使用しようとしています。最初に composer を使用して PHPCrawl ライブラリをインストールし、バンドルに「DependencyInjection」フォルダーを作成しました。そこに、PHPCrawler を拡張するクラス「MyCrawler」を配置しました。サービスとして設定しました。ここで、クロール プロセスを起動すると、Symfony で前述のエラーが表示されます。
クラス「PHPCrawlerUtils」でメソッド「getURIContent」を呼び出そうとしました
クラスが存在し、メソッドが存在するため、理由がわかりません。
これが私のコントローラーアクションです:
DependencyInjection フォルダー内のサービス クラス MyCrawler は次のとおりです。
sourceforge PHPCrawlフォーラムでもヘルプを検索しましたが、これまでのところ成功していません...ここからPHPCrawl 0.83を使用していることを追加する必要があります:
https://github.com/mmerian/phpcrawl/
問題が発生していると思われるクラスは次のとおりです。
php - PHP クローラー リンクがファイルのダウンロードを引き起こすことを検出する
私はphpクローラーを開発しており、ページ内のリンクのhrefをすべて取得できます。次のようなファイル ダウンロード リンクの URL をデータベースに保存したくありません。
http://www.example.com/folder1/thefile.exe
http://www.example.com/folder1/download.php?id=1
http://www.example.com/folder1/thefile.zip
http://www.example.com/folder1/thefile.extension
またはその他の拡張子。
これは私の有効な関数であり、ここでは is_file() 関数が役に立たないことを知っています。
ここで私の質問は次のとおりです。ファイルのダウンロードを引き起こす URL を検出するにはどうすればよいですか?