問題タブ [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
547 参照

xml - Eclipse での webharvest の実装

WebHarvest の実行可能バージョンで必要なことを正しく実行する XML 構成 (ScreenScraper) があります。Javaを介して実行する方法について混乱しています。

0 投票する
2 に答える
449 参照

xml - webharvest がデータを取得しない

エラーなしで webharvest を実行していますが、XML ファイルを開くと、適切なデータがなく、出力されるだけです。ここに私のコードがあります:

0 投票する
1 に答える
680 参照

xml - Web ハーベスト -- 通常とは異なる文字を削除する

アンカーの後にいくつかのスペースがあるページをスクレイピングしようとしています:

テキストを指定する方法が見つからないようで、プロセッサ エラーが発生するか、文字列自体の検出に失敗します。文字が含まれていると xml が適切に形成されていないため、それ以降はすべて html から xml への変換が失敗します。そのため、後ですべてを削除する必要があります (ドキュメントの他の場所の後に div タグまたは何か他の部分があることに注意してください)。

私のコード:

私の問題は正規表現パターンにあると思います。私はもう試した:

とりわけ。式を CDATA 要素に入れようとしましたが、これも機能しません。

何かご意見は?

0 投票する
1 に答える
616 参照

webharvest - WebHarvestは応答ヘッダーを見つけることができません

WebHarvestを使用して、ログインが必要なサイトからデータをフェッチしています。

これは次のように設定されています。

ページ1=ログインページ

ページ2=ログイン検証ページ

ページ3=統計ページ

2ページ目にCookieが設定されています。Firebugでページ2のオープニングを監視すると、次のヘッダーが表示されます。

WebHarvestで同じページを呼び出すと、次のヘッダーのみが表示されます。

WebHarvestでは3つのヘッダー(Set-Cookie、Connection、Keep-Alive)が見つからないようです。ページ1、2、および3はダミーであるため、実際の検証は行われません。Cookieは、ページ2のサーバー側で常に設定されます。

現在使用しているWebHarvestコードは次のとおりです。

編集:チェックすると、プログラムでhttpヘッダーが見つからない場合でも、WebHarvestにCookieが設定されていることに気付きました。一部の応答ヘッダーが使用から隠されている可能性はありますか?

この問題の回避策を知っている人はいますか?

ありがとう、よろしくお願いします、SiggeLund

0 投票する
2 に答える
1238 参照

java - Web ハーベスト xml での正規表現の使用

Web ハーベストを使用して e コマース サイトをスクラップしています。検索ページを反復処理して、出力 xml で各製品の詳細を取得しています。文字列.つまり、

上記の行は、各製品のアンカー タグの href 値を返します。つまり、最初の製品の場合、返される値は次のとおりです。

/([^/\?]+)\? のような正規表現を使いたいと思います。最後の / と ? の間の文字列を取得します。つまり、

出力xmlで。これについて何か考えがある人は誰でも助けてください。ありがとうございました。

更新しました -

私の構成 xml は上記のとおりです。私の xml で正規表現コード ブロックを使用する場所は? そして、正規表現をlinktoprodに適用し、最終的にリンクタグの正規表現出力を出力xmlとして取得したい.誰かが私を案内してください. ありがとうございました。

0 投票する
0 に答える
113 参照

java - Google App Engine で Webharvest を実行するには?

Webハーベスト( http://web-harvest.sourceforge.net/ )でスクレイパーを開発しました。ただし、プログラムをサーバー上で実行したいと考えています。このシステムを Google App Engine で実行することはできますか? お返事ありがとうございます!

0 投票する
2 に答える
997 参照

java - ウェブハーベスト-URLをスクレイピング

Webハーベストを使用しています。ただし、次のURLからデータを取得したいと思います。

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke3%Arten3%AngebotTyp3%timestamp=1363305908912

私のコードは次のとおりです。

しかし、私は得ます:

エンティティBezirkeへの参照は「;」で終わる必要があります

';'を使用して、Webハーベストの意味がわかりません。

0 投票する
1 に答える
986 参照

xml - xpath によって返される制限リスト

WebHarvest で xpath を使用しようとしていますが、大量のデータ リストを受け取ることができますが、返される最初の 5 つの文字列だけが必要です。

*[position()<6] を使用してみましたが、要素タイプ「null」に関連付けられた属性「式」の値に「<」文字を含めてはならないというエラーが表示されます

0 投票する
2 に答える
1134 参照

xml - Webharvest If および null テスト

プログラムに xpath 式の戻り値をチェックさせようとしていますが、それが null の場合は別の式を試す必要があります。これを行うにはどうすればよいですか? Web サイトのすべての例を試しましたが、空白の一重引用符はコンパイルされません。

また、定義された変数を操作して、記号や数字などの文字列の特定の部分を除外する方法はありますか?