私が取り組んでいる特定の PHP スクリプトでは、Lynx Web ブラウザーへのシステム コールを使用して、HTML をプレーン テキストに変換し、出力をキャプチャします。
$text = `lynx -dump stackoverflow.com`;
/*
#[1]Stack Overflow [2]RSS
[3]login | [4]about | [5]faq
____________________________
[6]logo homepage
* [7]Questions
* [8]Tags
* [9]Users
* [10]Badges
*/
ただし、サーバーで Lynx が使用できない場合に備えて、別の方法に適切にフォールバックすることをお勧めします。プログラムがPATHに存在するかどうかを確認するにはどうすればよいですか? ああ、Windows と Linux の両方で動作する必要があります... :p
私はSOスクリーンスクレーパーを書いているわけではありません。心配しないでください...