問題タブ [phpcrawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?
Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:
PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html
PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです(または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()
PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。
必死に助けを待っています。
php - PHPCrawlは時々手ぶらで返す
PHPCrawlクラスを使用して、Webサイトをスパイダーし、リンクのリストを作成しています。ゆっくりではあるが、すべてうまく機能し、リンクを使用して他のタスクを実行します。
スクリプトを最初に実行すると結果が得られずに完了し、次にスクリプトを実行すると期待どおりに機能するという問題が発生しています。約30%の確率で失敗しています。
最初はこれはネットワークまたはワークステーションの問題だと思いましたが、同じ問題が別のISPを使用する別の場所にある別のマシンで発生します。
他の誰かがこのクラスを使用して同じ問題に遭遇しましたか?
php - 無料の php クローラーはありますか?
以前は独自のクローラーを使用していましたが、今はより堅牢なものが必要で、無料の php クローラーが他にないかどうか疑問に思っていました。
automation - サイト内のページ数を数える
たとえば smashingmagzine.com のように、サイトに公開ページがいくつあるか知りたいです。ページ数を数える方法はありますか?
php - PHP での単一ページの Web クロール
私はPHPが初めてです。単一の HTML ページをクロールして、そのページのソース コード内のすべての単語を出力する方法を誰かが教えてくれますか?
php - 新しいPHPCrawlクラスをインスタンス化すると、「未定義のメソッドstdClass :: receivePage()の呼び出し」というエラーがスローされます。
foreachループを使用して、複数のシードURLをループします。各ループ中に、PHPCrawlと次のシードURLを使用してクローラーをインスタンス化します。
最初のループでは正常に実行されますが、クロールが実行される前に2回目に次のエラーがスローされます。
元のPHPCrawlV0.70クラスは変更していません。PHPCrawlのドキュメントで説明されているように、PHPCrawlerクラスを拡張し、handlePageData()関数にプロセスコードを追加しただけです。foreachループなしでこれを実行すると(新しいURLで一度に1つずつ新しいクラスをインスタンス化する)、システムは正常に動作します。
助けてください!!
php - クローラーを使用してページから特定のデータを取得する
クローラーを使用してサイトからデータを取得しよ うとしていますが、PHP で単純なクローラーを作成するにはどうすればよいですか?を見つけました。それは役に立ちましたが、http://findpeopleonplus.com/のコードを使用して、ページからすべての Google プラス リンクを取得しようとしています。
参照用にここにコードを貼り付けます。
php - PHP Web クローラー、データ構造とストレージ、PHPCrawl で動作しますか?
これを行うために書かれた他のクラスがある場合、リンクは素晴らしいでしょう。そうでない場合、どうすれば PHPCrawl でそれを行うことができますか?
サイト固有の一連のルールに基づいて、クロールされたサイトから特定の情報を保存することは可能ですか? 例[div.wantThis, img#defaultPicture]
: サイト A に[div.shortTextContent]
は配列が返され、サイト B には配列のみが返されますか?
$page_data
PHPCrawl では、配列からこの情報を取得するにはどうすればよいですか?
ニーズ
特定の要素のみをターゲットにできる必要があります。
変数からデータ ストレージ ルールを読み取ることができます (ターゲットにする要素を指定する配列である可能性があります)。
php - phpcrawl クラスの setTmpFile() メソッドを使用するにはどうすればよいですか?
この WebCrawler クラスhttp://phpcrawl.cuab.deを使用しています。「setTmpFile()」という名前のメソッドがありますhttp://phpcrawl.cuab.de/classreference.html#settmpfile。この方法をどのように使用できるか知りたいですか?良い例を教えてください。
phpcrawl - PHPcrawler - tmp ファイル
の最新バージョンをダウンロードしましたphpcrawler
。自分のテスト Web サイトにアクセスできます。
このサイトには画像といくつかのテキストしかありません。クローラーを実行すると、適切に行ったため、テキストから画像を差し引いたものを受け取ります。$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");
tmpファイルを保存できません。クローラーを実行するフォルダーに一意のtmpファイルが保存されません。名前付きファイルを保存しようとしましたが、うまくいきませんでした。
すべてのphpファイルのさまざまな行で、多くの減価償却エラーに遭遇しました。たとえば@fopen
、@
さまざまな領域で問題が発生しました。も使えPHP
ますRegex
。デビッド。