URL から html ファイルを処理するスクリプトを作成しましたが、安価なホスト プロバイダーでの 30 年代のスクリプト ランタイム制限により、html を txt ファイルとして保存し、ローカルの WAMP サーバーから実行するようにスクリプトを変更する必要がありました。 .
各ファイルをロードし、必要なものを抽出してから、次のファイルに移動しようとしています。
ソースとしての URLfile_get_html
は完全に仕事をしていました (必要な要素を見つけることができました) ソースとしての Txt ファイルfile_get_html
が空のオブジェクトを返しています。
以下の投稿のアドバイスに基づいて、テキスト ファイルの内容を含む単一の大きな文字列を含む配列を作成するように変更file_get_html
しました。file_get_contents
まず、file_get_contents
がデータを取得できることを確認します。可能であれば、データをDomfile_get_htm
にロードできますsimplehtml
文字列を返す場合file_get_contents
、どのように「データを simplehtml Dom にロードしますか?」
file_get_html を使用してファイルが読み取られない
次に、文字列をオブジェクトに変換しようとしましたstr_get_html
が、これも機能しませんでした。
include('simple_html_dom.php');
$html = file_get_html('file.txt');
var_dump($html);
戻り値:object(simple_html_dom)[1]
ただし、他のコンテンツや配列はありません。
include('simple_html_dom.php');
$html = file_get_contents('file.txt');
var_dump($html);
戻り値:string < ! DOCTYPE html PUBLIC.....
質問:
誰でもアドバイスをもらえますか?そのコンテンツで find メソッドを利用できるように、html マークアップを含むテキスト ファイルをオブジェクトにロードする最良の方法は何ですか。ファイルを文字列の配列にロードしたり、正規表現を使用してコンテンツを処理したりしたくありません。
ローカル WAMP サーバーを使用する場合、考慮すべき事項はありますか?