問題タブ [goutte]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - Goutte と PHP を使用してリストをスクレイピングして href を取得する際の問題
以下をスクレイピングしようとしています。基本的にはテキストとリンクが必要です。PHP でGoutteを使用しています。次のコードを使用してテキストを取得できますが、href 値を取得できません。どんな助けでも素晴らしいでしょう。
php - PHP グート。「値」フィールドのない選択ボタン
これは私のターゲット Web サイトです: http://www.rapid7.com/db/で検索を実行したいのですが、その脆弱性をチェックするために文字列「Symphony」としましょう。
入力フォームの要素を調べると、その名前は「q」であることがわかりますが、これまでのところ問題ありませんが、ボタンには値がありません。代わりに、クエリを送信する必要があるボタンは<span id="run_search" class="vbsearchBtn"></span>
値フィールドなしです。
私のコード:
誰もこれを実行する方法を知っていますか?
php - ドム。オプションタグ内の指定されたテキストから値属性を取得します
CSS セレクターまたは xpath 式のいずれかによって、指定されたテキストから値を取得しようとしていますが、これを実行できるかどうかはわかりません。これは私のHTMLです:
テキストを指定して値 3511 を取得したいとしましょう。
これが必要な理由は、次のように Web クロールを実行したいからです。
そして、引数として 3511 という数字を渡すのではなく、テキストを渡したいと思います。
私が自分自身を明確にしたことを願っています、事前に感謝します。
php - DOMCrawler が解析のためにデータを適切にダンプしない
Symfony、Goutte、および DOMCrawler を使用してページをスクレイピングしています。残念ながら、このページには昔ながらのデータ テーブルが多数あり、ID、クラス、または識別要素はありません。リクエストから返されたソースコードを解析してテーブルを見つけようとしていますが、情報にアクセスできないようです
フィルタリングしようとすると、最初のノードのみがフィルタリングされ、目的のデータがそこにないため、何も返されないと思います。
だから私は$crawler
オブジェクトを持っています。そして、私が望むものを得るために、以下をループしようとしました:
よくわかりませんCrawler $node
が、Web ページの例から取得したところです。おそらく、これを機能させることができれば、オブジェクト内の各ノードをループして、$crawler
実際に探しているものを見つけることができます。
ページの例を次に示します。
そして、これは 1 つのテーブルにすぎません。多くのテーブルがあり、この 1 つの外に大きな雑然とした混乱があります。何か案は?
$crawler
(注: 以前は、必要な情報に対してオブジェクトにフィルターを適用することができました。次にserialize()
、情報を取得し、最終的に文字列を取得しました。これは理にかなっています。しかし、文字列をまったく取得できません。理由はわかりません。)