検索を有効にする必要がある大きなセットオフファイル(hdf)があります。Javaの場合、ファイルとドキュメントのインデックス作成エンジンであるため、これにはLuceneを使用します。しかし、Pythonに相当するものが何であるかはわかりません。
高速検索のためにファイルの大規模なコレクションのインデックスを作成するために使用するライブラリを誰かが推奨できますか?それともあなた自身を転がすための好ましい方法ですか?
私はpyluceneとlupyを見てきましたが、どちらのプロジェクトもかなり非アクティブでサポートされていないように見えるので、それらに依存すべきかどうかはわかりません。
最後の注意:ウーシュとピルセンは有望なようですが、ウーシュはまだアルファ版であるため、信頼したいかどうかわかりません。また、ピルセンのコンパイルに問題があり、実際のリリースはありません。データをもう少し調べた後、それは主に数値とデフォルトのテキスト文字列であるため、現在はインデックス作成エンジンは役に立ちません。うまくいけば、これらのライブラリは安定し、後で訪問者はそれらのいくつかの用途を見つけるでしょう。