私は最近、RapidMiner を発見しました。その機能に非常に興奮しています。ただし、プログラムが私の特定のニーズに役立つかどうかはまだわかりません. 別のプログラムで生成した URL リストから xpath の一致をスクレイピングするプログラムが必要です。(RapidMiner の「クロール Web」オペレーターよりも多くのオプションがあります)
Neil Mcguigan による次のチュートリアルを見てきました: http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。しかし、私がスクレイピングしようとしている Web サイトには何千ものページがあり、それらすべてを自分の PC に保存したくありません。また、Web クローラーには重要な機能が欠けているため、私の目的には使用できません。URLを読み取らせ、それらの各URLからxpathをスクレイピングする方法はありますか?
ページから html を抽出するための他のツールも調べましたが、私はプログラマーではないため、それらがどのように機能するか (またはインストールするか) を理解できませんでした。一方、Rapidminer はインストールが簡単で、オペレーターの説明は理にかなっていますが、正しい順序で接続することができませんでした。
モチベーションを維持するためには、何らかのインプットが必要です。「ファイルからドキュメントを処理する」代わりに使用できる演算子を知りたいです。「Web からドキュメントを処理する」を見てきましたが、入力がなく、まだクロールする必要があります。どんな助けでも大歓迎です。
返信をお待ちしております。