イントラネット上にあるページのすべてのリンクをプルする必要がありますが、それを行うための最善の方法がわかりません。サイトの構成は以下のとおりです。
トピックのリスト
トピック1
トピック2
トピック3
等
これで、リンクは各トピックページにあります。URIを抽出するために手動で500を超えるトピックページを通過することは避けたいです。
各トピックページの構造は次のとおりです。
http://alias/filename.php?cat=6&number=1
cat
パラメータはカテゴリを参照し、パラメータnumber
はトピックを参照します。
トピックページに入ると、抽出する必要のあるURIが特定の形式で再び存在します
http://alias/value?id=somevalue
警告
- 私はデータベースにアクセスできないので、データベースをトロールするオプションはオプションではありません
- 各トピックページにはURIが1つしかありません
- 新しい行に各URIをリストするだけのファイルにリストを抽出する必要があります
ターミナルからBASHを介して実行できるある種のスクリプトを実行したいと思います。このスクリプトは、トピックURIをトロールし、次に各トピックのURIをトロールします。
一言で言えば
BASHを使用して実行できるスクリプトを使用してリストを抽出するには、トピックのすべてのリストを再帰的に調べてから、各トピックページのURIを抽出し、抽出された各URIを含むテキストファイルを新しいものに吐き出すにはどうすればよいですか。ライン。