web-crawler - Webクロールとリンク評価

Question

cURLが完全なファイルをダウンロードすることを知っています。

私が本当に望んでいるのは、ページ上のすべてのリンクを取得し、特定の基準、リンクの場所などに対して評価し、そのページを取得して情報を解析する必要があるかどうかを判断することです。

具体的には、エンターテインメントイベントに関連するリンクを見つけ、データを解析してMySQLデータベースに保存し、自分の地域のイベントのWebサイトにデータを入力したいと考えています。

誰かが達成する方法について考えたことはありますか？

-ジェイソン

score 2 · Accepted Answer

コードやCURLなどのツールを使用して自分で実装するのではなく、既存のWebクローラー/インデクサーソリューションに基づいて作業することをお勧めします。

たとえば、Luceneを参照してください。

score 1 · Accepted Answer

他の回答のこれらのソリューションは興味深いように聞こえますが、私はC#/MonoとHTML Agility Packで似たような単純なことをしました。

score 0 · Accepted Answer

上で述べたように、あなたは言語について言及しませんでした。Rubyを使用している場合は、cobwebgemを使用できます。リンクを見つけないように手動で指示し（デフォルトではすべてのリンクを自動的にクロールします）、評価する必要があると言ったように各ページでこれを自分で行います。必要に応じて、手動でキューに入れることができます。クロールされます。

Ruby on Railsは、godaddy共有ホスティングによってサポートされているように見えます。

（これは3年前のことですが、他の誰かを助けるかもしれません！）

score 0 · Accepted Answer

ページ上のリンクの列挙だけが必要な場合は、.NET WebBrowser と DOM を使用してそれを行うことができます。これについて私のコードを掘り下げています...私はあなたに戻ってきます。

score 0 · Accepted Answer

プログラミング言語が指定されていません。Java を使用してカスタマイズしたい場合は、Apache Droidsが適しているかもしれません。特定のニーズに合わせてカスタマイズできる最小限のクローラーとして計画されています。

web-crawler - Webクロールとリンク評価

5 に答える 5

Related

Reference