事前に選択されたいくつかの Web サイトのみから情報を抽出するクローラーを作成する必要があります。
これが簡単な仕事であることはわかっていますが、Google App Engine を使用してこれを行うことを考えています。
Nutch でこれをやってみようかな。
それを成し遂げるこの方法はどの程度実現可能ですか?
1) Google インフラストラクチャでクローラーをホストする 2) Nutch + アプリ エンジン - 可能ですか?
事前に選択されたいくつかの Web サイトのみから情報を抽出するクローラーを作成する必要があります。
これが簡単な仕事であることはわかっていますが、Google App Engine を使用してこれを行うことを考えています。
Nutch でこれをやってみようかな。
それを成し遂げるこの方法はどの程度実現可能ですか?
1) Google インフラストラクチャでクローラーをホストする 2) Nutch + アプリ エンジン - 可能ですか?
Nutchのドキュメントをざっと見ただけで、「[t]これは、基礎となる Hadoop プラットフォームに完全に基づいた Nutch の 2 番目のリリースです」などのコメントがあり、これはApp Engineでは実行されないのではないかと思われます。App Engine アプリは、PythonまたはJavaサンドボックスで実行されます。
とはいえ、基本的なクローラーを App Egnine にまとめることができるはずです。基本的な実装では、おそらくurlfetchを使用してページを取得するタスクを起動し、必要に応じて追加のタスクを挿入してドキュメントへのリンクを処理します。スケジュールされたタスクを使用してクロールを開始できます。