xpath - 最初に HTML ページを保存する代わりに、rapidminer は URL のリストから xpath を抽出できますか?

Question

私は最近、RapidMiner を発見しました。その機能に非常に興奮しています。ただし、プログラムが私の特定のニーズに役立つかどうかはまだわかりません. 別のプログラムで生成した URL リストから xpath の一致をスクレイピングするプログラムが必要です。(RapidMiner の「クロール Web」オペレーターよりも多くのオプションがあります)

Neil Mcguigan による次のチュートリアルを見てきました: http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。しかし、私がスクレイピングしようとしている Web サイトには何千ものページがあり、それらすべてを自分の PC に保存したくありません。また、Web クローラーには重要な機能が欠けているため、私の目的には使用できません。URLを読み取らせ、それらの各URLからxpathをスクレイピングする方法はありますか?

ページから html を抽出するための他のツールも調べましたが、私はプログラマーではないため、それらがどのように機能するか (またはインストールするか) を理解できませんでした。一方、Rapidminer はインストールが簡単で、オペレーターの説明は理にかなっていますが、正しい順序で接続することができませんでした。

モチベーションを維持するためには、何らかのインプットが必要です。「ファイルからドキュメントを処理する」代わりに使用できる演算子を知りたいです。「Web からドキュメントを処理する」を見てきましたが、入力がなく、まだクロールする必要があります。どんな助けでも大歓迎です。

返信をお待ちしております。

score 2 · Accepted Answer

RapidMiner を使用して HTML ページを内部的に保存せずに Web スクレイピングを行うには、次の 2 段階のプロセスがあります。

ステップ 1 Neil McGuigan によるhttp://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.htmlのビデオに従ってください。次の違いがあります。

クロール Webオペレーターの代わりに、 Process Documents from Webオペレーターを使用します。結果はExampleSetにロードされるため、出力ディレクトリを指定するオプションはありません。

ExampleSet には、クロールルールに一致するリンクが含まれます。

Web メインからドキュメントを処理する

ステップ 2 http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.htmlのビデオに従いますが、7:40 からのみ、次の違いがあります。

前に作成したProcess Documents from Web内にExtract Informationサブプロセスを配置します。

ExampleSet には、XPath クエリに一致するリンクと属性が含まれます。

抽出情報サブ

score 0 · Accepted Answer

私はあなたとまったく同じ問題を抱えており、 RapidMinerのフォーラムからのこれらの投稿が少し役立つかもしれません。 .com/rapidforum/index.php?topic=3851.0.html

じゃあ ;）

xpath - 最初に HTML ページを保存する代わりに、rapidminer は URL のリストから xpath を抽出できますか?

2 に答える 2

Related

Reference