問題タブ [phpcrawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1691 参照

php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?

Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:

  1. PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html

  2. PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです(または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()

PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。

必死に助けを待っています。

0 投票する
1 に答える
303 参照

php - PHPCrawlは時々手ぶらで返す

PHPCrawlクラスを使用して、Webサイトをスパイダーし、リンクのリストを作成しています。ゆっくりではあるが、すべてうまく機能し、リンクを使用して他のタスクを実行します。

スクリプトを最初に実行すると結果が得られずに完了し、次にスクリプトを実行すると期待どおりに機能するという問題が発生しています。約30%の確率で失敗しています。

最初はこれはネットワークまたはワークステーションの問題だと思いましたが、同じ問題が別のISPを使用する別の場所にある別のマシンで発生します。

他の誰かがこのクラスを使用して同じ問題に遭遇しましたか?

0 投票する
1 に答える
271 参照

php - 無料の php クローラーはありますか?

以前は独自のクローラーを使用していましたが、今はより堅牢なものが必要で、無料の php クローラーが他にないかどうか疑問に思っていました。

0 投票する
3 に答える
1886 参照

automation - サイト内のページ数を数える

たとえば smashingmagzine.com のように、サイトに公開ページがいくつあるか知りたいです。ページ数を数える方法はありますか?

0 投票する
2 に答える
1431 参照

php - PHP での単一ページの Web クロール

私はPHPが初めてです。単一の HTML ページをクロールして、そのページのソース コード内のすべての単語を出力する方法を誰かが教えてくれますか?

0 投票する
1 に答える
266 参照

php - 新しいPHPCrawlクラスをインスタンス化すると、「未定義のメソッドstdClass :: receivePage()の呼び出し」というエラーがスローされます。

foreachループを使用して、複数のシードURLをループします。各ループ中に、PHPCrawlと次のシードURLを使用してクローラーをインスタンス化します。

最初のループでは正常に実行されますが、クロールが実行される前に2回目に次のエラーがスローされます。

元のPHPCrawlV0.70クラスは変更していません。PHPCrawlのドキュメントで説明されているように、PHPCrawlerクラスを拡張し、handlePageData()関数にプロセスコードを追加しただけです。foreachループなしでこれを実行すると(新しいURLで一度に1つずつ新しいクラスをインスタンス化する)、システムは正常に動作します。

助けてください!!

0 投票する
0 に答える
709 参照

php - クローラーを使用してページから特定のデータを取得する

クローラーを使用してサイトからデータを取得しよ うとしていますが、PHP で単純なクローラーを作成するにはどうすればよいですか?を見つけました。それは役に立ちましたが、http://findpeopleonplus.com/のコードを使用して、ページからすべての Google プラス リンクを取得しようとしています。

参照用にここにコードを貼り付けます。

0 投票する
1 に答える
1616 参照

php - PHP Web クローラー、データ構造とストレージ、PHPCrawl で動作しますか?

これを行うために書かれた他のクラスがある場合、リンクは素晴らしいでしょう。そうでない場合、どうすれば PHPCrawl でそれを行うことができますか?

サイト固有の一連のルールに基づいて、クロールされたサイトから特定の情報を保存することは可能ですか? 例[div.wantThis, img#defaultPicture]: サイト A に[div.shortTextContent]は配列が返され、サイト B には配列のみが返されますか?

$page_dataPHPCrawl では、配列からこの情報を取得するにはどうすればよいですか?

ニーズ

特定の要素のみをターゲットにできる必要があります。

変数からデータ ストレージ ルールを読み取ることができます (ターゲットにする要素を指定する配列である可能性があります)。

0 投票する
1 に答える
121 参照

php - phpcrawl クラスの setTmpFile() メソッドを使用するにはどうすればよいですか?

この WebCrawler クラスhttp://phpcrawl.cuab.deを使用しています。「setTmpFile()」という名前のメソッドがありますhttp://phpcrawl.cuab.de/classreference.html#settmpfile。この方法をどのように使用できるか知りたいですか?良い例を教えてください。

0 投票する
1 に答える
486 参照

phpcrawl - PHPcrawler - tmp ファイル

の最新バージョンをダウンロードしましたphpcrawler。自分のテスト Web サイトにアクセスできます。

このサイトには画像といくつかのテキストしかありません。クローラーを実行すると、適切に行ったため、テキストから画像を差し引いたものを受け取ります。$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

tmpファイルを保存できません。クローラーを実行するフォルダーに一意のtmpファイルが保存されません。名前付きファイルを保存しようとしましたが、うまくいきませんでした。

すべてのphpファイルのさまざまな行で、多くの減価償却エラーに遭遇しました。たとえば@fopen@さまざまな領域で問題が発生しました。も使えPHPますRegex。デビッド。