問題タブ [webharvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - キーワードのトップ10検索リンクのグーグル検索ページをスクレイピング
私はキーワードを検索する際にグーグルページからトップ10の検索リンクをこすり落としたいです。
私はwebharvestを使用しています。hrefリンクをスクレイプし、いくつかを使用してトップ10を除外することを計画しています
属性パターン?それは正しい方法ですか、現時点では機能していません。それを行う他の簡単な方法はありますか?:(
java - WebHarvestのXqueryエラー
WebHarvestを使用していくつかのhtmlを解析しています。次の関数に関するWebHarvestのideで次のエラーが発生しますが、何が問題なのかわかりません。文字列をトリミングする関数を作成しようとしています。
エラー:
XQuery式の実行中にエラーが発生しました(Xquery = [declare variable $ xqsource external; let $ result:= normalize-space($ xqsource)return $ result])!
Edit2:ログは次のSAXエラーを報告します:
[...]原因:org.xml.sax.SAXParseException:コンテンツはプロローグで許可されていません
この場合、これが何を意味するのかわかりません。
関数のパラメータ:sourceString、トリミングする文字列
編集:sourceStringは、英数字、新しい行、スペースで構成される文字列です。
"blabla --bla2
「」
xml - Web Harvest で特殊文字を含む正規表現を作成する
オープン ソースの Web スクレイピング ツールである Web ハーベスト (http://web-harvest.sourceforge.net/) を使用しています。
私が使用しようとしている正規表現には、「<」、「>」文字が含まれています (入ってくるすべての HTML タグを取り除こうとしているからです)。要素のコンテンツは整形式の文字データまたはマークアップで構成されている必要があるため、これは問題を引き起こします。
どういうわけか正規表現をエスケープする必要がありますが、方法がわかりません。
何か案は?
java - Web スクレイピング Java 初心者
Java は初めてです。Web スクレイピングとデータの解析が得意になりたいです。
htmcleaner、web-harvest、htmlparser などの API がどのように機能するかを理解するのに役立つ、Web スクレイピングに関連するサイトはありますか?
私はまだ、Javadocs を見て、すべてのメソッドがどのように機能するかを理解するのに十分なほど Java に習熟しておらず、Web 上で役立つ Java コード例 (チュートリアル) を見つけることができません。
facebook-c#-sdk - 学習 データ収集
以下からデータを収集する Web サイトを構築したい: * Facebook の友達のステータス * 他の Web サイト
残念ながら、データを収集する方法がわかりません。誰かが本\チュートリアルを推薦できますか? この分野にどうアプローチするか?
java - Web ページからデータを検索してスクレイピングするための優れた Java ライブラリは何ですか。
Webページからデータを検索してスクレイピングし、データベースに貼り付けるための優れたオープンソースのJavaライブラリは何ですか. たとえば、次のようなページがあるとします。
"Address:" がキーですが、実際には "123 My Street" を取得しようとしています。これには、html タグと間にスペースがたくさんあります。理想的には、文字列「Address:」に続く td の間の値を取得したいと考えています。JSoup は検索を実行できるようですが、オフセットを実行する方法の良い例は見当たりませんでした (見逃した可能性があります)。キー/値を処理するライブラリはありますか?
また、Kapow Extraction Browser に似た UI スクリプト作成のためのオープン ソース (MIT/Apache) のイニシアチブについても知りたいと思っています。
ありがとう。
jquery - ウェブサイトのグループからヘブライ語の名前を収集する
私は次のウェブサイト(ヘブライ語)を持っています: http ://www.daydeals.co.il/
外部のウェブサイトへのリンクがたくさん含まれています。1)すべてのリンクを開く2)テキスト「someText」を含むすべての開いているWebサイトから要素を収集する3)(2)からすべての要素のコレクションを返すjQueryスクリプトを作成したい
誰かがこれを行う方法を教えてもらえますか?
別の質問:次のjqセレクターを使用しようとしました:alert($( "div:contains('אביב')")。text());
ただし、これを任意のブラウザで参照すると、ヘブライ語はギブリッシュに変わります。これを克服する方法はありますか?
前もって感謝します
pdf - GETリクエストを介してPDFドキュメントから1ページを取得することは可能ですか?
デジタルリポジトリを新しいプラットフォームに移行する必要がありますが、古いプラットフォームにアクセスできないため、Web経由でオブジェクトを取得することにしました。
一部のオブジェクトには他のオブジェクトが含まれています。このタイプのほとんどのオブジェクトでは、コンポーネントとそのメタデータの識別/取得は簡単なプロセスです。ただし、一部のPDFファイルでは、参照されるコンポーネントは、実際には、個別のページではなく、単一のファイル内の個々のページへの参照であるように見えます。
たとえば、http://content.wwu.edu/cdm4/document.php?CISOROOT = / wfront&CISOPTR = 2711は、4ページのオブジェクトを提供します。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=printを使用すると、ドキュメント全体を取得できます。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711は、コンポーネントページの識別子を示すXMLドキュメントを取得しますが、それらをカールしようとすると、長さがゼロになります。ドキュメント。しかし、PDF以外のドキュメントが関係している場合に同じ方法を使用すると、実際のファイルが取得されます。これが、個々のページのみが取得されていると思う理由です。
新しいプラットフォームに個別のオブジェクトとして保存する必要があるため、個別のページを取得するにはどうすればよいですか?ありがとう
arrays - web-harvest で配列変数を定義する
Web-Harvest を使用して、サイトからデータを抽出しています。
サイトは名前付きの POST 変数を取得し、Code
それに応じてデータを提供します。
利用可能なコードは、そのサイトの別のページから収集されます。
配列のような変数を定義して、コードに関連するデータを配列のような変数に格納し、メイン プログラムのループでそれらを取得できるようにするにはどうすればよいですか?
私はこのようなことを意味します:
java - Web ハーベストが不正な形式の html を xml に変換できない
<div>
Webハーベスト(Javaから)でxqueryプロセッサを使用して、要素内に無効なタグを含むhtmlページを解析しています<div 3px="abc">
. 例外は次のとおりです。
divの前処理をきれいにする簡単な方法はありますか? または、この問題の回避策はありますか?