URL を指定して、JavaScript が実行された後に Web ページのソースを取得する方法を探しています。例えば:
の Web ページがあります。ページの読み込み時に、一部の JavaScript が div に入力します。ブラウザーを介してページのソースを表示しても、div 内にある情報は得られません。
私の知る限り、ブラウザがページをレンダリングするには、div が (X|D)HTML で満たされている必要があります。これは、レンダリング後のページのソースがまだネストされたマークアップであることを意味するため、理論的には存在する必要があります。ページソースの「最終」バージョンになります。
WebKit や Gecko などのレンダリング エンジンを使用して、何らかの方法でこれを行うように調整することを検討しましたが、これはかなり大きなタスクであり、既に行われたものを複製したくありません。このタスクを実行する方法を知っている人はいますか。
よろしく。
更新: Selenium (受け入れられた回答へのコメントに記載されているように) を使用して、これを複数のページで自動的に行うことを目指しています。私のプロジェクトは Web スパイダーであり、設計上、目的のコンテンツが JavaScript によってすべて取り込まれるまで利用できない多数のページをターゲットにする必要があります。