2

MapReduceフレームワークを使用してインデックスを作成し、それを分散Solrに追加することはできますか?

インターネットを介して転送され、データセンター(またはAmazon)に保存される情報(ログファイルとドキュメント)のバーストがあります。複製されたSolrインストールによって解析、索引付け、そして最終的に検索可能にする必要があります。

これが私の提案したアーキテクチャです:

  • MapReduceフレームワーク(Cloudera、Hadoop、Nutch、さらにはDryadLinq)を使用して、これらのドキュメントをインデックス作成用に準備します
  • これらのドキュメントをLucene.NET/Lucene(java)互換のファイル形式にインデックス付けします
  • そのファイルをすべてのSolrインスタンスにデプロイします
  • その複製されたインデックスをアクティブ化する

上記が可能であれば、MapReduceフレームワークを選択する必要があります。Clouderaはベンダーがサポートしており、Hadoopのインストールに含まれていないパッチがたくさんあるので、一見の価値があると思います。

MatpReduceフレームワークを選択したら、ドキュメント(PDF、DOCx、DOC、OLEなど)をトークン化し、インデックスを作成し、インデックスをSolrインスタンスにコピーして、で検索できるように何らかの方法で「アクティブ化」する必要があります。実行中のインスタンス。この方法論は、RESTインターフェースを介してSolrにドキュメントを送信するよりも優れていると思います。

私が.NETを写真に取り入れた理由は、私たちがほとんど.NETショップだからです。私たちが持つ唯一のUnix/JavaはSolrであり、Solrnetを介してRESTインターフェースを活用するフロントエンドを備えています。

あなたの経験に基づいて、このアーキテクチャはどのように見えますか?何か問題/問題がありますか?どんなアドバイスができますか?

ファセット検索を失うために私何をすべきではありませんか?Nutchのドキュメントを読んだ後、それはファセットを行わないと言ったと思いますが、私はこのソフトウェアの背景が十分でなく、それが何を言っているのかを理解できないかもしれません。

4

2 に答える 2

3

一般的に、あなたが説明したことは、ほぼ正確にNutchがどのように機能するかです。Nutchは、Hadoopコアに基づくクロール、インデックス作成、インデックスマージ、およびクエリ応答ツールキットです。

Cloudera、Hadoop、Nutch、Luceneを混在させないでください。ほとんどの場合、それらすべてを使用することになります。

  • Nutchは、(Solrのような)索引付け/応答機構の名前です。
  • Nutch自体は、Hadoopクラスター(独自の分散ファイルシステムであるHDFSを多用します)を使用して実行されます。
  • NutchはLucene形式のインデックスを使用します
  • Nutchには、クエリ応答フロントエンドが含まれています。これを使用することも、SolrフロントエンドをアタッチしてそこからLuceneインデックスを使用することもできます。
  • 最後に、Cloudera Hadoopディストリビューション(またはCDH)は、数十のパッチが適用された単なるHadoopディストリビューションであり、より安定し、開発ブランチからのいくつかの便利な機能をバックポートします。ええ、そうしない理由がない限り(たとえば、最先端のHadoop 0.22トランクが必要な場合)、おそらくそれを使用したいと思うでしょう。

一般に、既製のクロール/検索エンジンソリューションを検討しているだけの場合は、Nutchが最適です。Nutchには、MS Wordドキュメント、PDFなど、さまざまなクレイジーなタイプのドキュメントを解析してインデックスを作成するためのプラグインがすでに多数含まれています。

個人的には、ここで.NETテクノロジを使用する意味はあまりありませんが、使い慣れている場合は、.NETでフロントエンドを実行できます。ただし、Unixテクノロジを使用することは、Windows中心のチームにとってはかなり厄介なことかもしれません。そのため、このようなプロジェクトを管理している場合、特にクロールとインデックス作成のタスクが制限されている場合(つまり、何らかの目的でインターネット全体をクロールします)。

于 2010-11-22T22:32:09.330 に答える
0

Lucandra https://github.com/tjake/Lucandraを見て、Lucense / SolrのCassandraベースのバックエンドを確認しました。Hadoopを使用して、Cassandraストアにデータのインデックスを設定できます。

于 2010-12-04T01:10:48.287 に答える