問題タブ [simple-html-dom]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
347 参照

php - simplehtmldom のタグの内容でどのように検索しますか?

simplehtmldom を使用して Web スクレイパーを作成しようとしています。タグの中身を検索してタグを取得したい。これは、タグのタイプではなく、その中の平文です。次に、プレーンテキストの内容を検索してタグを取得したら、その後に次のタグを取得したいと考えています。

コンテンツに基づいてタグを見つけるにはどうすればよいですか? そして、それを取得したら、次のタグを見つけるにはどうすればよいですか?

任意のヘルプをいただければ幸いです。

ありがとう。

0 投票する
3 に答える
711 参照

php - simplehtmldom でセルをうまく分割できない

Web スクレイパーを作成しようとしています。すべてのセルを一列に並べたい。必要な行の前の行には、THOROUGHBRED MEETINGS がプレーン テキスト値として含まれています。この行を正常に取得できます。<td>しかし、セルまたはタグである次の行の子を取得する方法がわかりません。

解析しようとしているhtmlは次のとおりです。

ここに私の出力があります:

0 投票する
2 に答える
2448 参照

php - シンプルな HTML DOM パーサーのエラー処理

SimpleHTMLDOM Parser を使用して Web サイトをスケープしていますが、エラー処理方法があるかどうかを知りたいです。たとえば、リンクが壊れている場合、コードを進めてドキュメントを検索する必要はありません。

ありがとうございました。

0 投票する
1 に答える
508 参照

php - simple_html_dom - マニュアルに記載されていない問題

こんにちは、simple_html_dom を使用して、EXACT クラス「hello」を持つタグのすべてのインスタンスを検索しています

上記は、「hello world」のようなクラスも提供するため、これを行うわけではありません。はい、配列から正しい要素を数えてリストするのは簡単ですが、解析されているソースhtmlが変更されるため、実用的ではありません。

クラスの正確な用語を見つける方法はありますか?

ありがとう

0 投票する
2 に答える
1999 参照

php - simple_html_dom で doctype を抽出する

私はsimple_html_domウェブサイトを解析するために使用しています。Doctype を抽出する方法はありますか?

0 投票する
2 に答える
6737 参照

domdocument - PHPコマンドラインスクリプトは、php.iniおよびini_set('memory_limit'、...)ディレクティブを無視します

一般的な「致命的なエラー:メモリ不足(30408704が割り当てられています)(24バイトを割り当てようとしました)...」PHPの致命的なエラーに直面しています。Apacheを介して提供されるページは、この動作を示していません。

私は次のことを試しました:

  1. php.iniのmemory_limitをはるかに大きな値に増やします。
  2. ini_set('memory_limit', -1)、、、 などini_set('memory_limit', '-1')の 呼び出しを介してスクリプト自体のmemory_limitを増やします。ini_set('memory_limit', 100000000)ini_set('memory_limit', '128M')
  3. unset()不要な配列とオブジェクトを使用して、ガベージコレクターがメモリを解放するように促します。
  4. ウェブホストに連絡しています。彼らは通常、非常に有能で知識が豊富ですが、この問題についても私を助けることができませんでした。
  5. -cコマンドラインフラグを使用してphp.iniファイルを明示的に含めて、さまざまな値を持つ特定のphp.iniファイルを手動で選択してみました。
  6. 生のバイト数と64M、128Mなどの値の両方を使用してphp.iniでmemory_limitを設定してみました。
  7. ホスティングプロバイダーは、問題なくrootとしてスクリプトを実行できましたが、root以外のユーザーを使用してスクリプトを実行した場合と同じ問題が発生します。おそらく、何らかの権限の問題が関係していますか?

私が何をしようとしても、エラーメッセージは同じです。コマンドラインスクリプトがへの変更を無視しているようmemory_limitです。

スクリプトがメモリ効率に優れていることを確認する傾向がありますが、現在、 Simple HTML DOMを介して大量のHTMLを解析する必要があり、メモリ不足の問題が発生しているのはパーサーです。スクリプトのメモリフットプリントを削減するために、代わりにDOMDocumentを使用してみました。これも役に立ちません。実際、メモリ不足エラーはスクリプトの他の場所でトリガーされるようになりました。

私の質問:誰かがこれまたは同様の問題を経験しましたか?何かお勧めはありますか?

ありがとうございました。

0 投票する
4 に答える
6009 参照

php - シンプルな HTML DOM ヘルプ

入力タグの値属性を抽出するにはどうすればよいですか? SIMPLE HTML DOMの使用 例を示します。

他の入力タグではなく、非表示のタイプの入力タグの値だけを抽出したい。

0 投票する
1 に答える
892 参照

php - simpleHTML でネストされたタグを削除する

simple_html_dom を使用して、HTML のスニペットからすべてのスパンを削除しようとしています。次を使用しています。

そして、これが私のブラウザの結果です:

http://www.pixeloution.com/RAC/clean.gif

では、なぜ最も外側のスパンだけが削除されてしまうのでしょうか?

編集

実際、これを行う簡単な方法があれば、私はゲームです. オブジェクトは、タグを削除することですが、他のタグを含めてタグ内に何かを保持するか、または $obj->paintext を使用します

編集#2

わかりました...どうやらうまくいきましたが、奇妙なことに、以前に誰かがこれに遭遇した場合、実際に問題を理解したいと思っています。最も外側のスパンのみを削除していることを知っていたので、次のようにしました。

そしてそれはうまくいくようです。

0 投票する
3 に答える
1558 参照

php - html simple domを使用してContent-typeを取得するにはどうすればよいですか?

試しfind('meta[http-equiv="Content-type"]')ましたが、その情報を取得できませんでした。

0 投票する
4 に答える
6635 参照

php - PHP Simple HTML DOM パーサーの不具合

PHP Simple HTML DOM Parser を使用して Web ショップの一部のデータをスクレイピングしています (PHP5.3.0 で XAMPP 1.7.2 も実行しています) <tbody>。タグで問題が発生しています。テーブルの構造は基本的に次のとおりです (詳細はそれほど重要ではありません)。

今、私は<tbody>コードを使用してセクションに到達しようとしています:

エラーはスローされません。エコーしようとしても何も出力されません。私は他の要素でコードをテストしまし<thead>た。それらはすべて正しいセクションを提供します。外文同上。しかし、それはすべて失敗します。<table><span class="price"><tbody>

今、私はパーサーにざっと目を通しましたが、それを理解できるかどうかはわかりません. 言及されていないことに気付きました<thead>が、うまく機能します。肩をすくめる

子ナビゲーションを試してみることもできると思いますが、それも不具合があるようです。実行してみました:

そしてサイコロはありません。と 2 を 1 に置き換えてみましchildrenたがfirst_child、まだダイスはありません。面白いですが、->findの代わりに試してみるとchildren、完全に機能します。

全体の回避策を見つけることができると確信していますが、この動作はここに投稿するのに十分奇妙に思えます。私の好奇心旺盛な心は、得られるすべての助けに満足しています。