0

Webページからタグを抽出するJavaプログラムを作成しています。解析にはJsoupを使用していますが、正常に動作していますが、ダウンロードしたページのタグの数に問題があります。私は4つのファイルを持っています:-

  1. goog1.htm (ブラウザ経由でhttps://www.google.co.inから保存したもの)
  2. goog2.html (コマンド「 wget https://www.google.co.in」を使用してダウンロードしたもの)
  3. goog3.html (BufferedReader と InputStreamReader を使用して Java プログラムからダウンロードしたもの)
  4. goog4.html (「 view-source: https://www.google.co.in/」からコード全体をコピーして取得します)

これら 4 つのファイルで文字列「< script/>」を検索すると、すべて異なる結果が得られました。

  • goog1.htm - 16 回
  • goog2.html - 5 回
  • goog3.html - 5 回
  • goog4.html - 10 回

この違いの理由は何ですか? ページからすべてのスクリプト タグを取得する方法は?

プログラムのテストにはどのファイルを使用すればよいですか?

前もって感謝します...

4

1 に答える 1