0

SO はタグ付き検索をどのように実装しましたか? タグ付き検索に Lucene またはその他のオープンソース検索エンジン ライブラリを使用していますか?

ドキュメント (PDF、XML、HTML、MS Word) またはデータベースを検索する最良の方法は何ですか?

4

4 に答える 4

1

タグの検索は、テキストの検索とは大きく異なります。タグ付き検索は、すべての質問が特定のタグに関連付けられている関連付けを検索します。これは、タグがすべて 1 つの大きなエントリに追加されるフルテキスト エンジンで実装できますが、この状況ではおそらくリレーショナル データベースが最適です (タグ付けされたデータが最初からリレーショナル データベースにあると仮定します)。

PDF、XLS、HTML などの他のドキュメントを検索するには、Lucene のような全文が必要です。各ソースから関連するテキストだけを抽出できるパーサーが必要です (つまり、テキストをマークアップから分離します)。

于 2010-01-14T02:47:24.467 に答える
0

そうです、正確な方法はわかりませんが、Lucene.NET を使用しています。「最善の」方法は、まったく別の話です。

于 2009-04-26T05:21:13.003 に答える
0

これが (ポッドキャストで) 前回議論されたとき、Stackoverflow は Lucene ではなく、SQL Server の全文検索機能を使用することが言及されました。

于 2010-01-14T02:54:08.853 に答える
0

SO は Lucene を使用しません。

ドキュメントのインデックスを作成する必要があり、Windows を実行している場合は、IFiltersが私の最初の選択肢になります。

于 2010-01-14T02:59:43.857 に答える