java - javascript によって生成された html 情報にアクセスするにはどうすればよいですか?

Question

NY タイムズから記事の見出しを取得しようとしています。

しかし、Firefoxで「要素の検査」を使用した場合にのみ表示されるため、htmlはjavascriptによって生成されていると思います。どうすれば記事にアクセスできますか? おそらく、その方法の 1 つはブラウザーをエミュレートすることですが、それはやり過ぎのように思えます。Javaでこれを行うことを好みますが、Pythonでも問題ありません。あなたの助けに感謝します!

編集：APIを使用してみました。しかし、悪い URL がたくさんあります (ページが見つかりません)。URLと見出しを取得する方法について、他に何かアイデアはありますか?

score 0 · Accepted Answer

この特定の問題に対する別の解決策として、New York Times APIを使用するのはどうですか? JavaScript サポート用の JSONP を提供します。API を使用すると、サイトのレイアウトが変更された場合でも、おそらく将来性が高くなります。

score 0 · Accepted Answer

Seleniumはおそらくあなたが探しているものです。これはブラウザ自動化フレームワークです。

Python を使用することもできますが、Selenium は実際には Firefox を使用してサイトのコンテンツを解析します (前回聞いたとき)。

Python のバージョンはここで入手できますが、他にもオプションがあります。

java - javascript によって生成された html 情報にアクセスするにはどうすればよいですか?

3 に答える 3

Related

Reference