solr - データの重複がないファセット検索 (ETL なし)

Question

私がこれまで見てきたすべてのソリューションには、nosql またはデータウェアハウジングを使用したデータの複製が含まれます。より効率的な方法はありますか？

2011-06-07 編集:重複がないということは、ETLがないことを意味します。メインデータベースから直接データを抽出したいと思います。それは関係性ですが、私は変化する時が来ました。

score 1 · Accepted Answer

フィールドの折りたたみを追加する Solrのパッチがあります。返された結果セットが数百万のドキュメント長である場合に問題が報告されることを除いて、これはかなりうまく機能します。

また、ファセット数をあまり正確に計算しません。すべてのファセットの合計数が、セット内のドキュメントの数と一致しない場合があります。ただし、違いは常にそれほど大きくないようです。10000 から 50000 のドキュメントの結果セットの変動が 100 未満であることに気付きました。

明らかに、このパッチを使用するには、独自のバージョンの Solr をビルドする必要があります。これに慣れていない場合は、私が使用しているビルド済みのバージョンを試すことができます。パッチを適用した.warファイルと「lib」フォルダーの両方をSkyDriveにアップロードしました（後者が必要かどうか、パッチがライブラリに変更を加えるかどうかはわかりませんが、念のためにライブラリも変更します）。また、このバージョンは自己責任でのみ使用する必要があることを言及する必要があります。深刻な不満はありませんが、他の人にも同じことを保証することはできません. ダウンロードリンクはこちらです。

または、Solr 4 がリリースされるのを待つこともできます。これにはフィールドの崩壊が含まれますが、前回確認したときは未解決の重大な問題がまだありました。ちなみに、検索パラメーターの折りたたみは上記のパッチと互換性がないため、最初に 1 つを使用し、次に別のものを使用して、コードも修正する必要があります。

solr - データの重複がないファセット検索 (ETL なし)

1 に答える 1

Related

Reference