1

HTML アジリティ パックを使用して、動的に生成された HMTL コードを解析する必要があります。

たとえば、このコード:

<div class="navigation_noClass"> There are 43 articles </div>

は、Web ブラウザーの [ページ ソース] オプションには表示されません。つまり、このコードは、Firebug、Inspect Context などのいくつかの検査ツールを使用してのみ表示できます。

4

1 に答える 1

0

現時点では、受信した HTML を Agility パックに直接フィードしているため、通常のブラウザが行う (重要な?) ステップのいくつかが欠けているようです。つまり、Javascript および / または CSS の実行。

Javascript を実行するためのオプションは多数ありますが、合理的に「自己完結型」のオプションのほとんどでは、DOM と関連する機能を再作成する必要があります。些細なことではありません。

そして、CSS にコンテンツ (Before / After 疑似要素など) が含まれる場合があります。私の知る限り、ブラウザの外部で HTML ソースに対する CSS の動作をシミュレートするためのライブラリはそれほど多くありません。

これはすべて、Javascript や CSS 実行の出力を本当にキャプチャする必要がある場合、ブラウザーをアプリ処理パイプライン (Chromium ベースの製品の 1 つなど) に直接結び付けて、その DOM に問い合わせるのが最も簡単な場合があることを意味します (多くの関数 Web テスト スイートと同様の方法で)。

注意: これが深刻なサイズのサーバー スタイルの処理タスクである場合は、そのような処理を専用のサーバー / アプリ プール / プロセスに分散して、適切な稼働時間および / またはメモリでアプリに戦闘のチャンスを与えることができます。

于 2012-04-02T01:15:19.893 に答える