サイトから製品のリストを取得する Web クローラーを設計しています。シンプルな HTML DOM パーサーとfile_get_contents()を試して、HTML を取得して解析しました。しかし、HTML コンテンツの取得に時間がかかりすぎています。また、巨大なサイズのページであるため、多くの解析オーバーヘッドも発生します。可能であれば、必要な HTML コンテンツのみをフェッチしてフェッチを高速化する方法を探しています。同様に.. file_get_contents() で offset および maxlen パラメータを使用します。ただし、シーク (オフセット) はリモート ファイルではサポートされていません。
string file_get_contents ( string $filename,false, 9000, 5000)
これを行う他の方法はありますか?