問題タブ [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1179 参照

java - httpタイムアウトをjakarta HttpClientに設定する

WebHarvest 構成ファイルで以下のコードを使用して、WebHarvest の http 要素のタイムアウトを定義しています (Webharvest は Jakarta HttpClient を使用します)。
しかし、20000 に設定している間は、タイムアウトになるまで約 40 ~ 50 秒かかります。
そして、30000タイムアウトに設定すると、タイムアウトに達しません(少なくとも2分待ってから)!!
応答待ち時間を制限するだけで済みます。

私はまた、このコードでJavaコード自体またはHttpClientを介してそれをやろうとしました:

しかし、私は同じ結果を得ました!
このように

SO_TIMEOUT は、HTTP 接続が非アクティブな場合にのみ開始されます。

では、応答を待つ時間制限を設定するにはどうすればよいでしょうか?

ありがとう

0 投票する
1 に答える
413 参照

java - WebHarvest not passing http-parameters via GET correcly

I am trying to get a webpage to parse using the following code.

But instead of getting "value" as "param", script gets something like org.webharvest.runtime.web.HttpParamInfo@1983eae7. Same code with "post" method works OK, however this particular script requires "get" parameters. I've tried replacing <var name="parameter"/> with ${parameter.toString} but results are the same. How do I fix this?

0 投票する
1 に答える
622 参照

xml - Web ハーベスト認証設定の何が問題になっていますか?

最近、Web-Harvest を Web スクレイピング ツールとして使い始めました。現在、Web サイトへの認証/ログインを行うプロジェクトの開始に取り組んでいます。始める前に、コード内の [URL] が Web ページの実際の URL を置き換えることを明確にしたいと思います。

そのため、次の構成を実行してログイン情報を投稿しようとしています。

結果の情報を取得し、リダイレクトに従うにはどうすればよいですか? 手動でログインすると、以下の拡張子が URL に追加されます。ある種のランダム化とセッション ID が追加されているようです。それは私のソリューションに組み込む必要があるものだと思いますか?

以下は、問題の鍵となるページのソースの一部です。それは WebObjects の問題ですか? JavaScriptの問題ですか?私が問題ですか?:)

どんな助けでも大歓迎です。

0 投票する
1 に答える
402 参照

xml - Web-Harvestは、テーブルの列ヘッダーによってデータ型を決定します

私はWeb-Harvestを使用してWebページの「スクレイピング」を行っています。整理する必要のある値の表があります。テーブルはとてもシンプルです。ただし、各列のデータ型を決定するには、テーブルの列見出しを使用する必要があります。テーブルはこんな感じ…。

Web-Harvestの例に示されているように、XQueryを使用しており、インデックスと属性(クラス、IDなど)を使用して値を取得する方法を知っていますが、この場合、決定する方法がわかりません。その列1は名前、列2は年齢などです...この形式でXMLを出力したい...

別の投稿からこのコードフラグメントを見ましたが、どのように機能するのか正確にはわかりません。

各行について、対応する列見出しを見つけるために祖先(親?)が参照されているように見えます。それ以外は迷ってしまいました。追加情報があれば非常に役立ちます。

前もって感謝します。

0 投票する
1 に答える
344 参照

android - Android での Web ハーベストの使用

Web ハーベスト API を使用して Web サイトからデータを抽出し、ファイルに保存するモバイル アプリを構築しています。次に、アプリはデータを使用して操作し、表示します。私の問題は、java に webharvest を使用する場合、構成ファイルと出力ファイルのパスが "C:/config.xml" や "C:/docs" のようにローカル ディスクに対して相対的であることですが、Android プロジェクトでそれを使用する場合です。 Eclipse では、構成ファイルはプロジェクト内にあり、出力ファイルはプロジェクトまたはキャッシュ内にある必要があります。Webハーベスト構成を読み取るためのパスと、出力xmlファイルを書き込むためのパスを何に設定すればよいか教えてもらえますか?

0 投票する
1 に答える
3435 参照

java - Web-harvest を使用した Web ページのコンテンツのスクレイピング

Webページから特定のコンテンツをスクレイピングしたいので、Webハーベストを使用しています。コンテンツをスクレイピングしようとしたとき、他の Web サイトではうまく機能していますが、この URLのコンテンツはスクレイピングされていません。

私のJavaコードはここにあります:

そして私のXMLはここにあります:

この URL の最初のブロック (候補者名、現在の役職、会社など) をスクレイピングしたいのですが、XML ファイルでそのクラスを使用してスクレイピングすることができません (たとえば、候補者名のみをスクレイピングする最初の試みで 1 つだけを試みました)。

しかし、それは機能していません。誰かが私が間違っていることを教えてもらえますか?

0 投票する
1 に答える
1347 参照

web-scraping - WebハーベストによるWebスクレイピング

realtor.comからパラメータを取得するためにweb-harvestライブラリを使用してWebスクレイパーを作成しようとしています。それを行う方法についての良いチュートリアルはありますか?EclipseIDEを使用しています

0 投票する
1 に答える
782 参照

html - html/xmlからデータを抽出します

Webharvestを使用してWebサイトからデータを取得しています。提供されたxPathに基づいて必要なデータを取得する前に、htmlページをxmlドキュメントに変換します。

今、私は次のようなページに取り組んでいます:pastebin取得したいブロックを示した場所。各ブロックは、単一のユニットとして返される必要があります。

xPathは、ブロックの最初の要素です。//div[@id="layer22"]/b/span[@style="background-color: #FFFF99"] テストしたところ、すべての「ブロック開始」要素が表示されます。

ブロックの最後の要素のxPathは次のとおりです。//div[@id="layer22"]/a[contains(.,"Join")] テストしたところ、すべての「ブロック終了」要素が得られました。

xPathは、ブロックのセットを次のように返す必要があります。

(xPath)[1]=ブロック1

(xPath)[2]=ブロック2

...。

前もって感謝します

0 投票する
1 に答える
854 参照

web-scraping - 適切な Web スクレイパーの使用

クライアントからの入力アドレスを使用して、特定のサイトからそのアドレスからデータを取得する Web スクレイパーを作成する必要があります。私は Webharvest をダウンロードしました。それを行うためのプログラムの書き方を学ぶために、Webharvest から始めるのは正しいことですか?

また、可能であれば、その方法を学ぶための優れたチュートリアルを教えてもらえますか。