php - Simplehtmldom - カール、ループ、配列?

Question

Pseは、おそらくばかげた質問であることを許してください。simplehtmldom の例に従って、1 つの Web ページから必要なデータを取得することに成功しました。

ディレクトリ内のすべての html ページを調べてデータを抽出する機能を設定できるようにしたいと考えています。私はグーグルでグーグル検索しましたが、無知な状態で（何らかの方法で）PHPを使用してディレクトリ内のファイル名の配列を形成できると思っていたので混乱していますが、これに苦労しています。

また、私が見た多くの例はカールを使用しているようです。誰かがそれをどのように行うべきか教えてください。かなりの数のファイルがあります。それらを連結しようとしましたが、これはhtmlエディターを介してこれを行う場合にのみ機能します- cat -> の使用は機能しません。

score 1 · Accepted Answer

すべてのファイルのリストを配列として取得するには、glob('some/directory/*.html');(マニュアルページ)を使用することをお勧めします。次に、それを繰り返し、各ファイル名にDOMのものを使用します。

HTML を別の Web サーバーからプルする場合、必要な Web サーバーに HTML が保存されている場合にのみ、curl が必要ですglob()。

score 0 · Accepted Answer

あなたが話しているパーサーが正常に動作していると仮定すると、単純な www-spider を構築する必要があります。Web ページ内のすべてのリンクを調べて、「スキャンするリンク」のリストを作成します。そして、それらの各ページをスキャンします...

ただし、循環参照には注意する必要があります。

2 に答える 2