Internet Explorer Web ブラウザ ウィンドウのテキスト コンテンツを取得しようとしています。
私は次の手順に従っています:
- IHTMLDocument2 へのポインターを取得する
- IHTMLDocument2 から本文を IHTMLElement として取得し
ます 3. 本文で get_innerText を呼び出します
編集
- body のすべての子を取得し、すべての IHTMLElements に対して再帰呼び出しを試みます。
- 表示されていない要素を取得した場合、またはタグがスクリプトである要素を取得した場合、その要素とそのすべての子を無視します。
私の問題は
- ページに表示されるテキストとともに、どの スタイル=「表示:なし」のコンテンツも取得します
- google.com の場合、テキストとともに JavaScript も取得します。
私は再帰的なアプローチを試みましたが、このようなシナリオに対処する方法については無知です.
<div>
Hello World 1
<div style="display: none">Hello world 2</div>
</div>
このシナリオでは、「Hello World 1」を取得できません
IHTMLDocument2* からテキストを取得する最良の方法を教えてください。私は C++ Win32 を使用していますが、MFC や ATL は使用していません。
ありがとう、アシッシュ。