0

cURLが完全なファイルをダウンロードすることを知っています。

私が本当に望んでいるのは、ページ上のすべてのリンクを取得し、特定の基準、リンクの場所などに対して評価し、そのページを取得して情報を解析する必要があるかどうかを判断することです。

具体的には、エンターテインメントイベントに関連するリンクを見つけ、データを解析してMySQLデータベースに保存し、自分の地域のイベントのWebサイトにデータを入力したいと考えています。

誰かが達成する方法について考えたことはありますか?

-ジェイソン

4

5 に答える 5

2

コードやCURLなどのツールを使用して自分で実装するのではなく、既存のWebクローラー/インデクサーソリューションに基づいて作業することをお勧めします。

たとえば、Luceneを参照してください。

于 2009-04-19T15:23:16.637 に答える
1

他の回答のこれらのソリューションは興味深いように聞こえますが、私はC#/MonoHTML Agility Packで似たような単純なことをしました。

于 2009-07-18T21:28:53.480 に答える
0

上で述べたように、あなたは言語について言及しませんでした。Rubyを使用している場合は、cobwebgemを使用できます。リンクを見つけないように手動で指示し(デフォルトではすべてのリンクを自動的にクロールします)、評価する必要があると言ったように各ページでこれを自分で行います。必要に応じて、手動でキューに入れることができます。クロールされます。

Ruby on Railsは、godaddy共有ホスティングによってサポートされているように見えます。

(これは3年前のことですが、他の誰かを助けるかもしれません!)

于 2012-08-21T18:29:27.703 に答える
0

ページ上のリンクの列挙だけが必要な場合は、.NET WebBrowser と DOM を使用してそれを行うことができます。これについて私のコードを掘り下げています...私はあなたに戻ってきます。

于 2009-04-19T16:32:57.717 に答える
0

プログラミング言語が指定されていません。Java を使用してカスタマイズしたい場合は、Apache Droidsが適しているかもしれません。特定のニーズに合わせてカスタマイズできる最小限のクローラーとして計画されています。

于 2009-04-19T18:29:26.470 に答える