-3

Wiki ページを解析して必要な情報を取得する 1 つのプロジェクトを作成したいと考えています。Nutch Apache クローラーや単純な DOM パーサーなどのクローラーと DOM パーサーをチェックします。コア php を使用した Wiki ページの解析は非常に遅いです。

しかし、私はから得ることができません

  • 最良の最適化結果を得るためにどのツールを使用できますか?

  • php でクローラーのようなナットを統合する方法は?

  • クローラーから取得したデータを mysql に保存する方法は?

  • クローラーから取得したデータを整理するには?

  • どのレベルの正規表現を学ばなければなりませんか?

私はクローラーのようなプロジェクトの初心者です。

貴重な時間をありがとうございます。人々が私の質問を閉じた理由がわかりません。再開してください。

4

1 に答える 1

2

ウィキペディアで利用可能な組み込みのメディア ウィキ APIがあり、使用方法に関する PHP の例がいくつかあります。

Web サービス API は、MediaWiki データベースに含まれるデータへの高レベルの直接アクセスを提供します。クライアント プログラムは、Web サービスに対して HTTP 要求を行うことにより、Wiki にログインし、データを取得し、変更を自動的に投稿できます。

于 2012-03-19T11:37:59.883 に答える