3つのことをしようとしています。
1 つ目は、少なくとも毎日、定義済みの一連のサイトをクロールしてアーカイブすることです。
2: このデータ (テキスト分類) に対して夜間バッチ Python スクリプトを実行します。
3: Django ベースのフロント エンドをユーザーに公開して、ユーザーがクロールされたデータを検索できるようにします。
私は Apache Nutch/Lucene で遊んでいますが、別のクローラー エンジンを使用できる場合、Django でうまく機能させるのは難しすぎるようです。
質問950790は、Django 自体でクローラーを作成できることを示唆していますが、これを行う方法がわかりません。
基本的に-Djangoでクローラーを作成するためのポインター、または私が適応できる既存のpythonクローラーはありますか? それとも、ステップ 2 で「Django に適したものにする」ことを組み込み、グルー コードを記述する必要がありますか? それとも、最後に、Django を完全に放棄する必要がありますか? フロントエンドから素早く検索できるものがどうしても必要なんですけどね。