SO はタグ付き検索をどのように実装しましたか? タグ付き検索に Lucene またはその他のオープンソース検索エンジン ライブラリを使用していますか?
ドキュメント (PDF、XML、HTML、MS Word) またはデータベースを検索する最良の方法は何ですか?
タグの検索は、テキストの検索とは大きく異なります。タグ付き検索は、すべての質問が特定のタグに関連付けられている関連付けを検索します。これは、タグがすべて 1 つの大きなエントリに追加されるフルテキスト エンジンで実装できますが、この状況ではおそらくリレーショナル データベースが最適です (タグ付けされたデータが最初からリレーショナル データベースにあると仮定します)。
PDF、XLS、HTML などの他のドキュメントを検索するには、Lucene のような全文が必要です。各ソースから関連するテキストだけを抽出できるパーサーが必要です (つまり、テキストをマークアップから分離します)。
そうです、正確な方法はわかりませんが、Lucene.NET を使用しています。「最善の」方法は、まったく別の話です。
これが (ポッドキャストで) 前回議論されたとき、Stackoverflow は Lucene ではなく、SQL Server の全文検索機能を使用することが言及されました。
SO は Lucene を使用しません。
ドキュメントのインデックスを作成する必要があり、Windows を実行している場合は、IFiltersが私の最初の選択肢になります。