2

オープン ソースの検索インデックス ライブラリを探しています。組み込み Web アプリケーションに使用されるため、コード サイズは小さくする必要があります。できれば、C、C++、または PHP で記述されており、インデックスを格納するためにデータベースをインストールする必要はありません。代わりに、インデックスはファイルに保存する必要があります (例: xml、txt)。xapian や clucene などの有名な検索ライブラリを調べてみました。これらは優れていますが、組み込みシステムとしてはコード サイズが比較的大きくなります。

これは Linux プラットフォームで実行され、HTML ファイルのインデックス作成に使用されます。

使用するのに適した検索ライブラリ/API について何か考えはありますか?

ありがとう。

4

5 に答える 5

2

ちょっと、あなた。いくつかあります。知名度の低い順に...

他にもたくさんあると思いますが、これらは私が頭の中で思いついたものです。幸運を :)

于 2008-09-18T08:20:26.790 に答える
2

ハイパーエストライアー

于 2008-09-18T07:23:06.710 に答える
0

まず、インデックスをどこかに保存する必要があります。したがって、メモリのみのインデックスが必要でない限り、データ ファイルが必要になります。

一般的なアイテムをインデックス化するには、sqlite をお勧めします: http://www.sqlite.org/。大量のデータがあり、複数のインデックスで処理する必要がある場合は、メモリのみのモードでも使用します。

于 2008-09-18T06:55:01.677 に答える
0

Swish-Eは C で書かれており、あなたが望むことをするかもしれません。データベースを必要とせず、独自のバイナリ インデックス ファイル形式を使用します。

ht://Digも使用したことがありますが、そのソフトウェアはメンテナンスされてから長い時間が経過しているようです。

両方とも Linux でコンパイルし、HTML を問題なくインデックス化します。

3 番目のオプションは、 AustLIIで使用されるSINOです。そこのチームに連絡して、最新バージョンを入手してください。Linux で問題なくコンパイルできるはずです。実際には組み込みシステム用に設計されたわけではありません (SINO は Size Is No Object の略です) が、最後に見た適切な API があり、比較的小さい (したがって、組み込みシステム用に設計されていませんが、同様に機能する可能性があります)。HTML を対象としています。かなり高速なインデックス作成。一見の価値があると思います。(開示:ずっと前にそこで働いていました)

最後に、Luceneに基づくSolrを使用します。Solr は、サーバーへの XML ドキュメントの POST に基づく単純な API を使用します。言語に関係なく、非常に簡単にインターフェースできます。

于 2009-01-01T20:43:30.850 に答える
0

それはあなたの要件に依存します。Lucene (Java) の完全な配布は最大 3MB の JAR ファイルですが、実際には 1MB をはるかに下回るサイズにまで縮小できます。CLucene は実際にはかなり小さいと思われます。どこまで下げる必要がありますか?...

于 2008-09-18T08:45:55.560 に答える