MapReduceフレームワークを使用してインデックスを作成し、それを分散Solrに追加することはできますか?
インターネットを介して転送され、データセンター(またはAmazon)に保存される情報(ログファイルとドキュメント)のバーストがあります。複製されたSolrインストールによって解析、索引付け、そして最終的に検索可能にする必要があります。
これが私の提案したアーキテクチャです:
- MapReduceフレームワーク(Cloudera、Hadoop、Nutch、さらにはDryadLinq)を使用して、これらのドキュメントをインデックス作成用に準備します
- これらのドキュメントをLucene.NET/Lucene(java)互換のファイル形式にインデックス付けします
- そのファイルをすべてのSolrインスタンスにデプロイします
- その複製されたインデックスをアクティブ化する
上記が可能であれば、MapReduceフレームワークを選択する必要があります。Clouderaはベンダーがサポートしており、Hadoopのインストールに含まれていないパッチがたくさんあるので、一見の価値があると思います。
MatpReduceフレームワークを選択したら、ドキュメント(PDF、DOCx、DOC、OLEなど)をトークン化し、インデックスを作成し、インデックスをSolrインスタンスにコピーして、で検索できるように何らかの方法で「アクティブ化」する必要があります。実行中のインスタンス。この方法論は、RESTインターフェースを介してSolrにドキュメントを送信するよりも優れていると思います。
私が.NETを写真に取り入れた理由は、私たちがほとんど.NETショップだからです。私たちが持つ唯一のUnix/JavaはSolrであり、Solrnetを介してRESTインターフェースを活用するフロントエンドを備えています。
あなたの経験に基づいて、このアーキテクチャはどのように見えますか?何か問題/問題がありますか?どんなアドバイスができますか?
ファセット検索を失うために私は何をすべきではありませんか?Nutchのドキュメントを読んだ後、それはファセットを行わないと言ったと思いますが、私はこのソフトウェアの背景が十分でなく、それが何を言っているのかを理解できないかもしれません。