0

NY タイムズから記事の見出しを取得しようとしています。

しかし、Firefoxで「要素の検査」を使用した場合にのみ表示されるため、htmlはjavascriptによって生成されていると思います。どうすれば記事にアクセスできますか? おそらく、その方法の 1 つはブラウザーをエミュレートすることですが、それはやり過ぎのように思えます。Javaでこれを行うことを好みますが、Pythonでも問題ありません。あなたの助けに感謝します!

編集:APIを使用してみました。しかし、悪い URL がたくさんあります (ページが見つかりません)。URLと見出しを取得する方法について、他に何かアイデアはありますか?

4

3 に答える 3

0

この特定の問題に対する別の解決策として、New York Times APIを使用するのはどうですか? JavaScript サポート用の JSONP を提供します。API を使用すると、サイトのレイアウトが変更された場合でも、おそらく将来性が高くなります。

于 2013-07-29T08:52:35.853 に答える
0

Seleniumはおそらくあなたが探しているものです。これはブラウザ自動化フレームワークです。

Python を使用することもできますが、Selenium は実際には Firefox を使用してサイトのコンテンツを解析します (前回聞いたとき)。

Python のバージョンはここで入手できますが、他にもオプションがあります。

于 2013-07-29T08:49:24.253 に答える