5

Webクロールは初めてです。クローラーが Rapidshare リンクが見つかった URL を含む Rapidshare リンクを保存する検索エンジンを構築します...

つまり、次のような Web サイトを構築します。filestube.com

いくつか検索した結果、Scrapyが Django で動作することがわかりました。Djangoとのnutch統合について見つけようとしましたが、何も見つかりませんでした

この種のウェブサイトを構築するための提案をいただければ幸いです...特にクローラー

4

2 に答える 2

8

そのための最もよく知られているプラ​​ガブル アプリはDjango-Haystackで、複数の検索バックエンドに接続できます。

  • Solr / Lucene流行語に準拠した Apache Foundation プロジェクト
  • ネイティブの python 検索ライブラリをシューッという音
  • Xapian別の非常に優れたセマンティック検索エンジン

haystack を使用すると、Django 独自の Queryset 構文に似た API を使用して、これらの検索エンジンを直接使用できます (すべて独自の API と方言があります)。

ツールをスクレイピングした後、使用するツールが何であれ、BeautifulSoupまたはScrappyである場合は、自分で、解析したいものを解析するPythonコードを記述し、djangoモデルにデータを入力します。
これは、commands.py モジュールで利用可能な個別の python スクリプトにすることもできます。

検索するファイルが多い場合は、おそらくインデックスが必要になるでしょう。インデックスは頻繁に再構築され、django ORM にヒットすることなく高速に検索できます。
Solr インデックスを使用すると (たとえば)、実際のモデルのフィールドに基づく仮想フィールドなど、他のフィールドをオンザフライで作成できます (例: 作成者の姓と名を分割する、大文字のファイル タイトル フィールドを追加するなど)。

もちろん、迅速なインデックス作成、キーワード ブースト、またはセマンティック分析が必要ない場合でも、いくつかの django モデル フィールド i に対して従来の全文検索を実行できます。

于 2011-01-07T17:21:03.357 に答える
1

DjangoItemを確認しましたか? これは実験的な Scrapy 機能ですが、動作することが知られています

于 2011-01-12T02:59:02.427 に答える