いくつかのWebサイトから情報を取得する必要があります。たとえば、このサイト 情報を抽出できるように、ページからすべてのリンクを取得するための最良の方法は何でしょうか。リンクをクリックして、その中の他のリンクを取得する必要がある場合があります。Watinを試し、Excel2007内からWebデータオプションを使用して同じことを試しました。私が知らないより良い方法を提案していただけませんか。
3 に答える
WGetを見てください。これは、単一のページまたはWebサイト全体のコンテンツをマイニングするための非常に強力なツールです。使用可能なオプションを使用すると、リンクに関して追跡するレベルの深さ、画像などの静的リソースの処理方法、相対リンクの処理方法などを指定できます。また、動的に生成されるページをマイニングするのにも非常に役立ちます。 、CGIまたはASPによって提供されるものなど。
'nixの世界では何年も前から存在していますが、Windows用にコンパイルされた実行可能ファイルはすぐに利用できます。
Process.Startを使用して.NETから開始する必要がありますが、結果を複数のファイル(元のWebサイト構造を模倣)、単一のファイル、または標準出力をキャプチャすることでメモリにパイプすることができます。次に、HREF HTML要素を抽出する(関心のあるリンクのみの場合)、または質問で提供するリンクで明らかな種類のテーブルデータを取得するなど、後続の分析を実行できます。
私の意見では、これは「純粋な」.NETソリューションではないことを認識していますが、WGETが提供するパワーはこれを補う以上のものです。私は過去にこのように、あなたがやろうとしていると思うようなことのためにそれを自分で使用しました。
Ncrawlerは、ディープレベルのクロールに非常に役立つ場合があります。同じものを指定するためにMaxCrawlDepthを設定することもできます。
http://watin.org/を使用することをお勧めします。これはwgetよりもはるかに簡単です:-)