13

検索を有効にする必要がある大きなセットオフファイル(hdf)があります。Javaの場合、ファイルとドキュメントのインデックス作成エンジンであるため、これにはLuceneを使用します。しかし、Pythonに相当するものが何であるかはわかりません。

高速検索のためにファイルの大規模なコレクションのインデックスを作成するために使用するライブラリを誰かが推奨できますか?それともあなた自身を転がすための好ましい方法ですか?

私はpylucenelupyを見てきましたが、どちらのプロジェクトもかなり非アクティブでサポートされていないように見えるので、それらに依存すべきかどうかはわかりません。

最後の注意:ウーシュとピルセンは有望なようですが、ウーシュはまだアルファ版であるため、信頼したいかどうかわかりません。また、ピルセンのコンパイルに問題があり、実際のリリースはありません。データをもう少し調べた後、それは主に数値とデフォルトのテキスト文字列であるため、現在はインデックス作成エンジンは役に立ちません。うまくいけば、これらのライブラリは安定し、後で訪問者はそれらのいくつかの用途を見つけるでしょう。

4

5 に答える 5

5

私はこれまでインデックス作成を行ったことがありませんが、次のことが役立つ場合があります:-

  1. pyIndex- http: //rgaucher.info/beta/pyIndex/-Python用のファイルインデックスライブラリ
  2. http://www.xml.com/pub/a/ws/2003/05/13/email.html-PythonとLuceneを使用してOutlookの電子メールを検索するためのスクリプトです
  3. http://gadfly.sourceforge.net/-Aaron waterのgadflyデータベース(これはインデックス作成に使用できると思います。自分で使用したことはありません。)

HDFファイルの使用に関しては、h5pyというモジュールについて聞いたことがあります。

これがお役に立てば幸いです。

于 2009-02-10T13:42:54.683 に答える
4

私はスフィンクスをお勧めします。非常にアクティブで、はるかに多くの機能があり、Lucene よりも高速に見えます。

于 2009-02-10T13:57:01.623 に答える
2

Python でよく使用される一般的な C++ ベースの情報検索ライブラリは、Xapian http://xapian.org/です。

信じられないほど高速で、大量のデータを問題なく管理できますが、Lucene ほど簡単に拡張することはできません。

于 2009-04-20T21:08:59.653 に答える