問題タブ [phpcrawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web - Web サイトからすべての Web リンクを取得するにはどうすればよいですか?
web サイトで利用可能なすべてのリンク (Web 投稿) を取得したい。また、新しい投稿がウェブサイトに追加された場合、リンクを取得できるはずです。10 個の Web サイトのリストがあり、リンク抽出プロセスを定期的に実行する必要があります。
投稿リンクと追加された新しい投稿リンクのみを取得する方法を教えてください。
php - PHPCrawl Cookie / パスワード認証
パスワードを持っているパスワードで保護されたサイトをクロールするための PHPCrawl について質問があります。
そのため、認証を必要としない Web サイトで機能するクローラーがあります。端末から実行するクローラー(ubuntu 14.04)。しかし、ユーザー名とパスワードが必要な Web サイトで使用しようとすると、機能しません。試してみPHPCrawl->addBasicAuthentication
ましたが、役に立ちませんでした。それから、私は次のアイデアを思いつきました-最初にクロールしたいWebサイトが開かれているタブを開いてログインした後、ブラウザーからクローラーを呼び出します。
しかし、PHPCrawl は認証セッションを認識していないと思います。だから、私の質問は次のとおりです。ログインしていることをPHPCrawlに認識させ、問題なくWebサイトをクロールする方法を知っている人はいますか?
php - PHPCrawler でのクロール時に https ホストに到達できない
https プロトコルで Web サイトをクロールしようとすると、PHPCrawler は次のようなエラーを返します。
ただし、http://
プロトコルを使用してサイトをクロールします。私の質問は、なぜこれが起こっているのかということです.PHPCrawlerがhttpsプロトコルでサイトをクロールできる方法はありますか. ありがとう。
php - PHP クローラーを使用して、このドキュメントから特定の URL を取得したい
私はこれについて何をすべきかわからないので、おそらく反対票を投じるでしょう。
次のような Web ページがあります。
取得することに興味のない他のいくつかの要素で満たされたページをクロールしたいと考えています。
href
要素内のアンカータグ内の属性のみを取得し、他には何も取得したくli
ありません。その後、リンクをたどって、次のような別の Web ページを取得します。
したがって、すべての最後に、h1
要素に含まれるものをすべて取得します。
皆さんがこれを回避するのを手伝ってくれたら、とても感謝しています。また、どの API も適切に機能します。
要素から属性を取得するこのコードがありますが、特定の要素内で見つかった要素をクロールすることができませんでした。
php - Laravel 5.4 で phpcrawl を使用する
Laravel 5.4 内で cuab の PHPCrawl を使用しようとしています 。
このサンプルコードを実行してみました:
しかし、次のような複数のエラーがスローされます。
クラス 'App\Http\Controllers\PHPCrawler' が見つかりません
Laravel 内でスクリプトを使用できるようにするには、正しい名前空間をどのように参照しますか?