django - Djangoを使った検索エンジン構築の提案

Question

Webクロールは初めてです。クローラーが Rapidshare リンクが見つかった URL を含む Rapidshare リンクを保存する検索エンジンを構築します...

つまり、次のような Web サイトを構築します。filestube.com

いくつか検索した結果、Scrapyが Django で動作することがわかりました。Djangoとのnutch統合について見つけようとしましたが、何も見つかりませんでした

この種のウェブサイトを構築するための提案をいただければ幸いです...特にクローラー

score 8 · Accepted Answer

そのための最もよく知られているプラガブルアプリはDjango-Haystackで、複数の検索バックエンドに接続できます。

Solr / Lucene流行語に準拠した Apache Foundation プロジェクト
ネイティブの python 検索ライブラリをシューッという音
Xapian別の非常に優れたセマンティック検索エンジン

haystack を使用すると、Django 独自の Queryset 構文に似た API を使用して、これらの検索エンジンを直接使用できます (すべて独自の API と方言があります)。

ツールをスクレイピングした後、使用するツールが何であれ、BeautifulSoupまたはScrappyである場合は、自分で、解析したいものを解析するPythonコードを記述し、djangoモデルにデータを入力します。
これは、commands.py モジュールで利用可能な個別の python スクリプトにすることもできます。

検索するファイルが多い場合は、おそらくインデックスが必要になるでしょう。インデックスは頻繁に再構築され、django ORM にヒットすることなく高速に検索できます。
Solr インデックスを使用すると (たとえば)、実際のモデルのフィールドに基づく仮想フィールドなど、他のフィールドをオンザフライで作成できます (例: 作成者の姓と名を分割する、大文字のファイルタイトルフィールドを追加するなど)。

もちろん、迅速なインデックス作成、キーワードブースト、またはセマンティック分析が必要ない場合でも、いくつかの django モデルフィールド i に対して従来の全文検索を実行できます。

Django ネイティブQuerySet は、「__search('something')」フィールドルックアップを参照してください
Django を使用したPostGreSQL 固有の全文検索

score 1 · Accepted Answer

DjangoItemを確認しましたか? これは実験的な Scrapy 機能ですが、動作することが知られています

django - Djangoを使った検索エンジン構築の提案

2 に答える 2

Related

Reference