-2

ドメインの下ですべてのURLを取得するためのコードまたはライブラリがあるかどうか疑問に思っています。ドメインのすべてのURLを見つける必要があります。

たとえば、私のドメインがhttps://stackoverflow.com/で、次のようなすべての質問URLを検索したい場合:

  1. [ CSVをXMLファイルに変換するJavaライブラリまたはアプリ?
  2. [ https://stackoverflow.com/questions/456/what-c​​an-i]
  3. [ https://stackoverflow.com/questions/789/where-can-i]

ドメインに含まれる質問の数はわかりませんが、すべてのURLを検索するためのエンジンを作成し、URLを見つけたら、コンテンツをデータベースに挿入する必要があります。

5つのWebページ用の小さな検索エンジンを作成します。

誰か助けてもらえますか?

ありがとう、

4

1 に答える 1

0

Lucene 検索を使用すると、ページを簡単にインデックス化できるため、効率的かつ正確に検索できます。

Lucene serach の PHP 実装については、Zend_Search_Luceneを参照してください。

サイトをスパイダーしてインデックスを作成する必要がありますが、これは別の問題です。Teleport Proのようなソフトウェアを使用してサイトをスパイダーし、URL のリストを取得して、すべてのページのコンテンツを取得し、それらを Zend_Search_Lucene にフィードしてインデックスを作成する PHP スクリプトにフィードできます。PHP でクローラーを作成するか、既存のソリューションを使用することもできます。を検索すると、この便利なphp クローラーphp crawlerを含む多くの情報が得られます。

于 2012-07-07T21:38:07.277 に答える