3

Azure/Lucene.NET 実装に基づく検索インデックスが必要です。そうは言っても、Solr と Hadoop について、またはそれらが Linux クラウドに何を提供するかについて、私はあまり知識がありません。

この先の学習曲線がわからないので、私が探しているものをお伝えします。おそらく、どのように時間を費やすべきか教えてください.

私たちのシステムから増え続ける電子メールのバッチをインデックス化することに興味があります。メッセージが送受信されると、検索可能である必要があります。これは、インデックスが巨大になる可能性があることを意味し、それがクラウドストレージを検討している理由です. 私が Azure に精通していることを考慮して、経営陣は Lucene.NET を使用することを提案しています。

Lucene.NET でドキュメントのインデックスを作成する方法を研究するか、Solr/Hadoop の実装を調べてください。

4

2 に答える 2

1

ソースコーパスの規模についての知識がなくても(ほぼリアルタイムのアプリケーションで数TBを操作します)、私たちの経験の一部を共有できます。私たちは主に.NETショップであり、SolrNetなどのツールを使用するとSolrを非常に簡単に使用でき、開発者にとっては非常に簡単な学習曲線であることがわかりました。

Solrを使用する利点はたくさんあります。ファセットなどの明白なものから、必要に応じてシンプルで柔軟なAPIなど。コミュニティがはるかに活発で、最新かつ最高の機能と修正が含まれているという事実に基づいています(Lucene.netを参照)。重要なのは、コモディティマシンでSolrを使用して簡単に線形にスケーリングできることです(申し訳ありませんが、クラウドの使用と比較することはできません)が、シャードに使用する種類のマシンの(ほぼゼロの)コストを考えると、AzureまたはAWSの方が安いでしょう。

お役に立てば幸いです。

于 2010-08-13T23:50:56.123 に答える
1

HTTP 経由でインデックス マシンと通信できる場合は、Solr を使用することをお勧めします。構成ファイルを変更するだけで、プログラミングなしで非常に簡単に Solr サーバーをセットアップできます。うまくスケーリングできます。参照: Lucene と Solr のスケーリング. 現在開発中のSolr Cloudは、Solr のスケーリングを容易にし、Hadoop のような機能をサポートします。

于 2010-08-15T06:14:36.143 に答える