そのための最もよく知られているプラガブル アプリはDjango-Haystackで、複数の検索バックエンドに接続できます。
haystack を使用すると、Django 独自の Queryset 構文に似た API を使用して、これらの検索エンジンを直接使用できます (すべて独自の API と方言があります)。
ツールをスクレイピングした後、使用するツールが何であれ、BeautifulSoupまたはScrappyである場合は、自分で、解析したいものを解析するPythonコードを記述し、djangoモデルにデータを入力します。
これは、commands.py モジュールで利用可能な個別の python スクリプトにすることもできます。
検索するファイルが多い場合は、おそらくインデックスが必要になるでしょう。インデックスは頻繁に再構築され、django ORM にヒットすることなく高速に検索できます。
Solr インデックスを使用すると (たとえば)、実際のモデルのフィールドに基づく仮想フィールドなど、他のフィールドをオンザフライで作成できます (例: 作成者の姓と名を分割する、大文字のファイル タイトル フィールドを追加するなど)。
もちろん、迅速なインデックス作成、キーワード ブースト、またはセマンティック分析が必要ない場合でも、いくつかの django モデル フィールド i に対して従来の全文検索を実行できます。