0

この質問が一般的すぎる場合は申し訳ありませんが、お気軽に編集してください。私は、デスクトップ環境との人間の相互作用を監視/観察し、そこから学習する AI システムを設計しています。画像キャプチャとコンピューター ビジョンを使用することもありますが、これにより、画面上で相互作用する要素に関して複雑なレイヤーが追加されます。ユーザーが操作する実際の DOM または HTML 要素 (マウス クリック、フォーカス、kb 入力など) をブラウザーから直接取得する方法があるかどうか疑問に思っていました。Windows では、DLL をブラウザーにフックできるかもしれませんが、Linux では同様のことを行う方法がわかりません。この背後にある考え方は、ユーザーが「ボタン」ログインをクリックすると、CV を使用して画像ピクセルをキャプチャする代わりに、ユーザーが操作した要素のデータ構造を実際に取得することです。どうすればこのようなことをすることができますか? エンジンは、C/C++ で開発されたサービスになります。

4

3 に答える 3

1

デスクトップ環境を監視している場合、Linux 環境について次の提案があります。

  1. XWindow イベントのキャプチャを試みます。KDE、GNOME などのウィンドウ マネージャはその上に構築されているため、追加情報が得られる場合があります。
  2. ブラウザに関しては、他の人が述べているように、プラグインを使用するのが最善です。また、クロスプラットフォーム ソリューションでもあります。

X イベント ウォッチャーの開始点は、ここに示されています。これがお役に立てば幸いです。

于 2012-11-27T20:08:27.217 に答える
1

通常はテスト用に使用される Firefox 用のSelenium プラグインには、探しているイベントの種類をログに記録できる記録/再生メカニズムがあります。

于 2012-11-27T19:26:51.423 に答える