html - 実行中の Web ブラウザーから HTML/DOM を取得する

Question

この質問が一般的すぎる場合は申し訳ありませんが、お気軽に編集してください。私は、デスクトップ環境との人間の相互作用を監視/観察し、そこから学習する AI システムを設計しています。画像キャプチャとコンピュータービジョンを使用することもありますが、これにより、画面上で相互作用する要素に関して複雑なレイヤーが追加されます。ユーザーが操作する実際の DOM または HTML 要素 (マウスクリック、フォーカス、kb 入力など) をブラウザーから直接取得する方法があるかどうか疑問に思っていました。Windows では、DLL をブラウザーにフックできるかもしれませんが、Linux では同様のことを行う方法がわかりません。この背後にある考え方は、ユーザーが「ボタン」ログインをクリックすると、CV を使用して画像ピクセルをキャプチャする代わりに、ユーザーが操作した要素のデータ構造を実際に取得することです。どうすればこのようなことをすることができますか? エンジンは、C/C++ で開発されたサービスになります。

score 1 · Accepted Answer

デスクトップ環境を監視している場合、Linux 環境について次の提案があります。

XWindow イベントのキャプチャを試みます。KDE、GNOME などのウィンドウマネージャはその上に構築されているため、追加情報が得られる場合があります。
ブラウザに関しては、他の人が述べているように、プラグインを使用するのが最善です。また、クロスプラットフォームソリューションでもあります。

X イベントウォッチャーの開始点は、ここに示されています。これがお役に立てば幸いです。

score 1 · Accepted Answer

通常はテスト用に使用される Firefox 用のSelenium プラグインには、探しているイベントの種類をログに記録できる記録/再生メカニズムがあります。

html - 実行中の Web ブラウザーから HTML/DOM を取得する

3 に答える 3

Related

Reference