Webページからタグを抽出するJavaプログラムを作成しています。解析にはJsoupを使用していますが、正常に動作していますが、ダウンロードしたページのタグの数に問題があります。私は4つのファイルを持っています:-
- goog1.htm (ブラウザ経由でhttps://www.google.co.inから保存したもの)
- goog2.html (コマンド「 wget https://www.google.co.in」を使用してダウンロードしたもの)
- goog3.html (BufferedReader と InputStreamReader を使用して Java プログラムからダウンロードしたもの)
- goog4.html (「 view-source: https://www.google.co.in/」からコード全体をコピーして取得します)
これら 4 つのファイルで文字列「< script/>」を検索すると、すべて異なる結果が得られました。
- goog1.htm - 16 回
- goog2.html - 5 回
- goog3.html - 5 回
- goog4.html - 10 回
この違いの理由は何ですか? ページからすべてのスクリプト タグを取得する方法は?
プログラムのテストにはどのファイルを使用すればよいですか?
前もって感謝します...