0

私は、サーバー ページをクロールして HTML から直接情報を抽出する Web データ マイニングのプロジェクトに取り組んでいます。私の努力は、caucho resin がインストールされた Java Web サーバーを持つ特定の Web サイトにのみ集中しています。

多くのパラメーターを試してデコードしたように、パラメーターは url の値のペアによって渡されます www.xxxxxx.com/jm/search?act=see&id=909&...が、もちろん、結果は非常に遅くなります。

私の質問は... Javaの達人は、この種のサーバーのすべての有効なパラメーターを取得する方法を知っていますか? 可能です?

私はサーバーにアクセスできず、カウチョ樹脂について何も知りません。Javaでユーティリティをコーディングして仕事をしています。

4

2 に答える 2

1

通信しているサーバーが完全な API を公開していない限り、パラメーターの数に制限はありません。これを考慮してください。Web フォームは、サーバーが応答するすべてのパラメーター (内部使用のためのパラメーターなど) を投稿しない場合があります。

パラメータ処理は「公開」の目から離れて実装されているため、サーバー側では、外部の世界に対して不透明です。

パラメータの可能な値を参照している場合、答えは基本的に同じです。たとえば、Amazon にはいくつの有効な製品 SKU がありますか?

(サーブレットにも「初期化パラメーター」があるため、これらの「要求パラメーター」を呼び出す方が良い場合があることに注意してください。これはまったく別の質問です:)

于 2011-10-05T16:59:40.407 に答える
1

パラメータが有効かどうかは、Web サーバーによって定義されるものではありません。これは、カスタム サーブレット コード自体によって定義されます。これは通常、機能要件および/または技術仕様書で定義されており、おそらくカスタム サーブレットの生成された javadoc でも定義されています。

この情報については、ウェブサイトの所有者/管理者に連絡することをお勧めします。できない、またはできない可能性がある場合は、Web サイトのポリシーに違反することをしている可能性があります。少なくとも、このサーブレットに送信するパブリック HTML フォームの入力要素で、有効なパラメーター名をすべて見つけることができます。


更新:あなたのコメントに従って:

値ではなくパラメータについて話している。「隠し」タグの HTML ソース コードを調べることで、それらの多くを見つけることができましたが、試行錯誤によってさらに見つけることができたので、それだけではありません。

FirebugまたはFiddlerを使用して、実際の Web ブラウザーによって行われた HTTP 要求を追跡するだけです。名前=値のペアを持つ素敵なテーブルで送信されたすべてのパラメーターを取得します。試行錯誤の必要はありません。

于 2011-10-05T17:01:00.367 に答える