おそらく悪い考えですが、HttpClient のような HTTP ライブラリを使用して、ユーザーと同じ要求を行うことができます。ヒットする必要がある URL と使用する必要があるヘッダーを把握するには、ヘッダー監視ユーティリティを使用する必要がありますが、これを自動化することは可能です。Google がページ レイアウト、id
s、class
es、または全体的なページ構造を変更すると、解析コードが壊れます。
さらに、サーバーからの応答をキャプチャできる必要もあります。これには、特定の Web エンドポイントで応答を受信することが含まれます。これは、以下に概説するソリューション 2 で対処できます。
要約すれば。
解決策 1 - 認証
- 認証 URL に対するHttpClient GET。
- TagSoupは、ページの応答を解析し、ページから必要なデータ (存在する場合) を保存します。
- 必要に応じて、[1.2] からの応答を処理するXOM xml パーサー。
- 認証 URL に対する HttpClient リクエスト
解決策 2 - Google からの応答を受け取る
- Jettyサーバー を起動します。
localhost:****/whatever
認証時 の応答 URL を に設定します。
- Jetty で応答を受け入れます。コマンド ライン アプリケーションで応答を取得します。
免責事項:
これはすべてテストされておらず、非常に理論的なものです。これを行うためのより良い方法があるかもしれませんが、Web ブラウザーを開いてユーザーをログインさせるだけにならないようにするのは大変な作業です。