問題タブ [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
193 参照

webharvest - Web ハーベスティングを使用して Pdf からデータを抽出する

Web Harvesting を使用して PDF からデータを抽出するにはどうすればよいですか? ページ内の関連するすべての PDF の URL を取得していますが、それらの Pdf からデータを抽出できません。Pdfs の URL を抽出するために Web Harvest バージョン 2.0 を使用しています。助けてください。

テキストを取得するために Web ハーベスティングに pdfcommand を組み込むにはどうすればよいですか? バッチファイルを実行せずに行う他の方法はありますか?

0 投票する
1 に答える
344 参照

html - webharvest を使用して Web サイトからデータをスクレイピングする

webharvest を使用して、Web サイト「http://www.tecomdirectory.com/」からすべての html ページをスクレイピングしようとしています。しかし、スクリプトはすべての html ページを取得するのに失敗し、一部の html ページのみをスクレイピングします。次のスクリプトを使用しています。

助けてください。前もって感謝します

0 投票する
1 に答える
185 参照

java - Java の Web-Harvest ライブラリを使用してブラウザの User-Agent 文字列を出力する方法

Web-Harvest ライブラリを使用して作成されたアプリケーションでいくつかの問題をテストしましたが、役に立ちませんでした。私たちのネットワーク環境にはプロキシと他のフィルターが混在しており、問題のある User-Agent 文字列を除外しようとしています。

アプリケーションで文字列を指定する方法に問題があると思いますが、提供された文字列をデバッグ用に出力する方法がわかりません。

IDE デバッガー内で文字列を確認できますが、他のユーザーがサーバーでテストできるように、この出力が必要です。

0 投票する
1 に答える
525 参照

xpath - Webharvest if/else および try/catch は常に成功する

私はウェブサイトからデータを収集する必要があるプロジェクトに取り組んでいるので、webharvest を使用しています。

収集しているデータ (ニュース Web サイトからのコメント) が複数のページにまたがっている場合があるという問題が発生しています。Webページのxpathでコメントの2ページ目へのリンクを探すように構成しようとしています。問題は、ifテストを試みると条件が常にパスし、tryステートメントを試みるとtry本体が常に成功することです。これにより、スクリプトは最初のページ (1 つしかない場合) からコメントを 2 回抽出します。ただし、2 組のコメントを含む記事は美しく機能します。したがって、私の質問はif条件とtryステートメントの構文に関連しています。これらの機能に関する Webharvest のドキュメントはほとんどありません。

これが私が試していることです。まず、ifテスト:

次に、try/ catch:

テストの問題は、if2 番目のページが存在しないときに変数が空であるにもかかわらず (GUI のデバッグから確認できます)、 がiftrue を返し、その本体を実行するように見えることです。

値を返さない xpath (2 番目のページが存在しない場合) は「エラー」を構成せず、try は引き続き成功するため、 try/が適切に機能しない理由をより簡単に確認できます。catchさらに難しいのは、次のページ リンクの @href が相対的であるため、最初のページの URL (または実際には記事のベース URL ですが、ここでも同じこと) に追加する必要があることです。 -to-xml は ${firstPage}${secondPageLink} という URL を取得しますが、これは単に最初のページの URL になるだけなので、webharvest は最初のページをもう一度処理します。

ifsecondPageLink xpath が空の値を返したときに false を返すように誰かが私のテストを再定式化できるなら、私は非常に感謝しています!

0 投票する
1 に答える
259 参照

webharvest - WebHarvest で変数に数値を追加する

私はJavaScriptに非常に慣れていないと言って始めるべきです。

数値に基づいて webharvest に多数の URL をフィードする必要があります。理由は長いですが、私の URL 構造は次のようになります http://www.example.com/foo/bar?page=0?page=1ステップごとに25ずつ増加します。したがって、次のページはhttp://www.example.com/foo/bar?page=25その後http://www.example.com/foo/bar?page=50になります。別の変数で設定できる最大値があり、それを呼び出します${maxpages}

だから私がする必要があるのは、それ以外の場合は完全に予測可能な URL にフィードするように変数を変更して、変数に毎回 25 が追加されるようにすることです。while次のように、ループを実行することを考えています。

したがって、ここでの構文については本当にわかりません。

私の質問は次のとおりです。

  1. while 条件で変数 pageNo が maxpages より小さいことを確認するにはどうすればよいですか?

  2. Webharvest の変数に整数を追加できますか? どのように?