問題タブ [simple-html-dom]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP: simple_html_dom - 特定のクラスにない要素を見つける方法は?
PHP で simple_html_dom を使用して、HTML ページ内のすべての A タグを取得しています。ただし、一部のタグは無視する必要がある div 内にあります。
次のようなものが必要だと思います:
$htmldom->find("!div[class=blabla] a");
[attribute!=value]
特定の属性値を持たない要素を指定する ために使用できることがわかりましたが、これは要素に対してどのように機能しますか?
php - PHP: 外国語の文字を simple_html_dom から UTF8 に変換するにはどうすればよいですか?
外国語の文字を含む Web ページからの文字列に問題があります。
str_get_html()
文字列は、$htmldom->innertext;
(simple_html_dom クラス ライブラリ)を使用して Web ページを解析することによって生成されます。
それを使用して文字列を出力すると、htmlentities()
正常に表示されます。しかし、文字列を使用explode()
してパーツを印刷すると、外国語の文字ごとに疑問符が入った傾斜したブロックが得られます。
utf8
文字列をMySQL データベースに保存する必要があるため、適切な外国語の文字が必要です。
utf8
私のページには、文字セット付きのヘッダーがあります。
mb_split()
私はすでにと を試しpreg_split()
ましたが、同じ問題があります。
php - PHP SimpleHTMLDom スクレイピングの問題
SimpleHTMLDom を使用してスクレイプを実行しようとしていますが、問題が発生しているようです。
私のコードは次のとおりです。
次のエラーが発生します。
私は何を間違っていますか?
php - 2つの特定のキーワード内のhtmlファイルのすべてのテキストを取得する方法
HTMLファイルと2つのキーワードがあり、これら2つのキーワード内にあるすべてのテキストを取得したいと思います。正規表現を使用する必要がありますか?この2つのキーワードを入力として受け取りたいと思います。例を挙げていただければ助かります。
php - 正規表現と simplehtmldom を使用してデータをスクレイピングする
このサイトからいくつかのデータをスクレイピングしようとしています: http://laperuanavegana.wordpress.com/ . 実は、レシピと材料のタイトルが欲しいのです。成分は 2 つの特定のキーワード内にあります。正規表現と simplehtmldom を使用してこのデータを取得しようとしています。しかし、成分だけでなく完全なhtmlテキストを表示しています。ここに私のコードがあります: <?php
このページには複数の成分があります。私はそれらのすべてが欲しい。preg_match_all() を使用すると、誰かがこのコードのバグを検出した場合に役立ちます。前もって感謝します。
regex - 正規表現を使用して記事のタイトルを取得するには?
正規表現と simplehtmldom を使用して、このページから記事のタイトルを取得したい: http://laperuanavegana.wordpress.com/about/
この場合のタイトルは : Cómo preparar SEITÁN
ここに私の正規表現があります:
誰かがバグを見つけるのを手伝ってくれれば助かります。
php - ドキュメントを PHP の単純な HTML DOM に保存する
PHP の単純な HTML DOM に問題があります。
コードをテキストドキュメントに保存するには、次の...
しかし、それを作成するのは初めてで、更新しようとすると上書きされないように見えます
何が問題なのですか?
編集: PHP を実行しても、作成されたテキスト ファイルは更新されません。
ウェブサイトは変わります。
php - エレメントを完全にきれいにする方法は?
私はsimplehtmldom.sourceforge.netを使用しています
クリア要素が欲しい$e
<font size="2"><b>Listen to INT_routine on the January 15th, 2007 Urban-D Radio Podcast!</b></font>
私は機能を使用します:$e->clear()
要素は削除しますが、残します</font>
要素を完全にきれいにする方法は?
php - PHP: 本番サーバーではメモリ使用量が非常に高く、ローカル マシンではメモリ使用量が少ない
Web サイトから特定のデータをスクレイピングし、関連情報を探してデータベースに保存する PHP スクリプトを作成しました。スクリプトはローカル マシンでは正常に動作しますが、cron ジョブを使用してライブ サーバーで実行すると、10 回のデータベース挿入を行った後に停止します。
「致命的なエラー:行809の/home/content/36/78632936/html/scripts/simple_html_dom.phpで 67108864 バイトの許容メモリ サイズが使い果たされました (35 バイトを割り当てようとしました) 」
get_memory_peak_usage() を使用してローカルで同じスクリプトをチェックしたところ、最大使用量は約 8 MB になりました。
ライブマシンでメモリ使用量が非常に高い理由については、私は困惑しています..どんな助けでも大歓迎です..
私のコードを垣間見る:
DB_table1: 60000 行のデータのリストが含まれています
メイン コードは、DB1 を呼び出してデータを取得し、データの各行を使用して URL を形成することから始まります。これらの各 URL は simple_html_dom() 関数を使用してスクレイピングされ、スクリプトは各ページで特定の情報を探し、このデータを別のテーブル DB_table2 に保存します。
他に何か知りたいことがあれば教えてください。ありがとう :)
php - PHP - シンプルな HTML Dom パーサー - 500 サーバー エラー
PHP 5.2.10 で単純な CentOS 5.5 サーバーを実行しています。PHP Simple HTML Dom パーサーを使用しようとしていますが、500 サーバー エラーが発生します。スクリプトは次のとおりです。
ご覧のとおり、URL を開こうとしている以外は、まだパーサーで何もしていません。そのfile_get_html
結果、500 サーバー エラーが発生します。
httpd エラー ログにエラーが表示されません。そのため、問題を解決するためにどこを見ればよいかわかりません。Simple HTML Dom パーサーの唯一の PHP 要件は、PHP 5+ (チェック) と php allow_url_fopen = On
(チェック) のようです。