問題タブ [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
760 参照

java - Web ハーベスト データをデータベースに保存する方法

Web ハーベスト ツールを使用してデータを廃棄しています。製品の名前と価格など、必要なデータを取得しています。

ここに私の設定ファイルがあります。

今、この名前と価格の情報を、名前と価格の 2 つの列を含む mysql データベース テーブルに移動しようとしています。データベースタグを使用する必要があるという情報を入手しました。しかし、それを使用する方法に関する情報は得られません。

私の設定ファイルでそれを設定する方法を教えてください。

前もって感謝します。

  • サヒティ
0 投票する
2 に答える
984 参照

webharvest - HTTP 実行中の IO エラー

私は 5 か月間 web-harvest を使用し、次の構文で web のコンテンツを取得しようとしました。

コンテンツを取得しましたが、最近、次のエラーが発生します。

私はそれを別のPCに接続し、正しく動作しましたが、私のPCではこのエラーが発生しました.

0 投票する
1 に答える
1050 参照

xml - Web-Harvest: リストから複数の URL を取得する

私がしようとしているのは、定義済みのリストから複数の Web ページを取得することです。コードは次のとおりです。

エラーは「変数の割り当て: コード: org.webharvest.runtime.variables.ListVariable を java.lang.String に割り当てられません」です。

ここで何が欠けていますか?

0 投票する
1 に答える
116 参照

java - Web ハーベストから取得したテキストの一部を削除する方法

私は webharvest を初めて使用し、次のステートメントを使用して、Web サイトから記事データを取得するために使用しています。

これは、上記のステートメントから取得したデータです。

私の質問は、構成を使用して「著名人」の後のコンテンツ全体を削除することは可能かということです。このようにすることは可能ですか?可能であれば方法を教えてください。ありがとう。

編集: 望ましい出力:

0 投票する
1 に答える
460 参照

java - Web ハーベストで文字列から部分文字列を減算する方法

私は webharvest を初めて使用し、次のステートメントを使用して、Web サイトから記事データを取得するために使用しています。

これは、上記のステートメントから取得したデータです。

私の質問は、上記の例の文字列を別の文字列から差し引くことは可能ですか?コンテンツから「著名人」です。

このようにすることは可能ですか?可能であれば方法を教えてください。ありがとう。私がこのようにできることはありますか:

containsは、文字列が別の文字列の部分文字列であるかどうかを判断するための関数名の例です。minusは、別の文字列から部分文字列を削除するための関数名の例です

望ましい出力:

0 投票する
1 に答える
193 参照

javascript - webharvest で xpath を使用して一部のデータを選択しない方法

Webharvest と xquery を使用して、Web サイトからデータを取得しています。

次のデータを持つ2つのxquery変数があります

$text:

$contact:

(上記のテキストは一例です。)

私がしたいのは、これまでのコンテンツを削除することです。$contactこれまでの$textところ、次のコードを思いつきました:

機能していません。どこが間違っているのかわかりません。これを行う正しい方法を教えてください。

0 投票する
3 に答える
1875 参照

php - PHP での Web スクレイピング - 一部の URL では機能するが、他の URL では失敗する

リンクされたプロフィールページのcurlを使用してWebスクレイピングを行っています。公開されているこの ( http://in.linkedin.com/in/ratneshdwivedi ) URL からデータを抽出しようとすると、うまくいきます。リンクインにログインして、この URL ( http://www.linkedin.com/profile/view?id=77597832&locale=en_US&trk=tyah2&trkInfo=tas%3Aravi%20kant%20mishra%2Cidx%3A1- ) からデータを収集しようとすると、 1-1 ) 機能せず、代わりに空のデータを返します。

以下は私のソースコードです:

前もって感謝します

0 投票する
1 に答える
695 参照

javascript - web-harvest を使用して HTML ファイル内の JavaScript 変数をクロールする

質問があります(ダミーかもしれません)。html ページ内に次のコード スニペットがあり、他の多くのもの (他のスクリプト タグと html タグ) があるとします。

そして、 mapData 変数のコンテンツのみをスクレイピングしたいと思います (上記の例では太字になっています)。

mapData 変数のコンテンツのみを取得するために、xml 構成ファイルで使用する必要がある xpath 式に苦労しています。私は XPath/Web-harvest を初めて使用するので、ソリューションが xpath 式を使用しているのか、それとも他のアプローチを使用しているのかわかりません。

これまでは HTML タグとその中の id 属性の名前に基づいてスクレイピングを行っていましたが、今ではファイル内に多数のスクリプト タグしかなく、mapData 変数を取得する必要があります。

何かご意見は?