HTML ページが与えられた場合、HTML ファイルに埋め込まれているか、HTML ファイルによってリンクされているすべての「x」ファイルを取得したいと思います。ここで、「x」は次のようになります。
- 画像 (JPG、PNG、GIF...)
- ドキュメント (ワード、パワーポイント、PDF...)
- フラッシュ (.flv、.swf)
どうすればいいですか?
- したがって、画像は (.png|.jpg|....) で終わるリンクでリンクされているか、img タグが埋め込まれているため、簡単に抽出できます。
- ドキュメントは埋め込むことができず、リンクのみが可能です (.doc|.ppt|.pdf|... で終わるリンクを使用)。そのため、入手も簡単です。
これが私の問題です:
Web ページに埋め込まれている Flash ファイルを取得するにはどうすればよいですか?
擬似アルゴリズムまたは正規表現パターンを教えてください。
上記のポイント (1. と 2.) が間違っている場合は、その点も教えてください。
ありがとう!