Web クロールの Perl スクリプトに関する管理および管理ソリューションの開発を検討しています。基本的に、現在、スクリプトは SVN に保存され、SysAdmin/devs などによって手動で開始されます。新しいソースからデータを取得する必要があるたびに、ビジネスの指示と目標を含むチケットを作成する必要があります。ご想像のとおり、最適なソリューションではありません。
このシステムには 3 つの一貫したテーマがあります。
- データの検索には、より適切なフレーズがないための「概念構造」があります。つまり、情報の検索は特定の経路をたどります。
- 私たちは非常に具体的な情報のみを探しているので、しばらくの間は大規模なクロールについて心配する必要はありません (数千から数万のページと数百万のページを考えてみてください)
- クロールは、サイト ベースではなく URL ベースです。
このアルファ版をより実稼働レベルのベータ版に拡張する際に、データ取得の自動化と管理を追加したいと考えています。さらに、私たちの他のシステムは Java (私はこちらの方が得意です) であり、外部の助けに大きく依存する必要がないように、perl の側面を区分したいと考えています。
通常の容疑者Nutch、Droidなどを評価しましたが、特定の情報検索に合わせてこれらのフレームワークを変更するのに費やした時間は正当化できません。
そこで、以下のアーキテクチャについてご意見をお聞かせください。
ソリューションを作成したい
- perl スクリプトの管理と実行のためのインターフェースとして Java を使用する
- 構成とデータ アクセスに Java を使用する
- 検索のためにperlに固執する
ユースケースの例は次のとおりです。
- データ アナリストから、クロールの要件が提示されました
- perl 開発者は必要なスクリプトを作成し、この webapp を使用してスクリプトを送信します (スクリプトはファイルシステムに保存されます)。
- スクリプトは、特定のパラメーターを使用して webapp から開始されます ....
Webapp は、perl スクリプトの複数のスレッドを作成して、複数のクローラーを開始できる必要があります。
だから質問は
- どう思いますか
- 特にJavaからPerlを呼び出すことから、JavaとPerlの間の統合がどれほど堅実であるか
- 実際にperlリポジトリの一部であるそのようなシステムを誰かが使用しましたか
本当の目標は、整理されていない perl スクリプトを大量に持たないようにし、情報検索にある程度の管理と組織を配置することです。また、perl を使用して必要な Web 部分を実行できることもわかっていますが、前に述べたように、perl に焦点を合わせ続けようとしています。しかし、私はこれをすべて perl ソリューションにすることに反対ではないようです。
すべての提案や意見を受け入れます。
ありがとう