1

何がインデックス速度を遅らせているのかを理解しようとしています。PDFからテキストを抽出して、各ページを個別にsolrにインデックス付けして、ページヒット結果を取得しています。

すべての「ドキュメント」の後にコミットを使用していました。次に、コミットを使用するたびにインデックスを再構築するのに多くの時間を費やしていることに気付きました。

今私はこれを使用します:

      <autoCommit> <maxDocs>10000</maxDocs> <maxTime>60000</maxTime> </autoCommit>

毎分コミットを取得します。

しかし、その後、私は計算していて、約30 の「ドキュメント」(solrDoc としてのページ)/秒または 10 の実際のドキュメント/秒のインデックスが作成されていることがわかりました。これは、他のセットアップに比べてかなり遅いようです。

どうすれば速度を上げることができますか?

追加情報:(必要に応じてリクエスト)

  • ドキュメントには 7 つのフィールドが含まれています (ページ上のテキストを含む 1 つのコンテンツ フィールド)。

  • Solrjを使用してドキュメントを solr に追加します。

  • Solr の高度な知識がないため、サンプル構成を使用しています。

  • pc intel core i7 2600+16Gb ram+ssd (これは開発用コンピューターであり、最終サーバーではありませんが、かなり高速である必要があります) CPU と RAM はあまり使用されません。

  • 外部ストレージからファイルを取得します。(ただし、高速で12MB / sを簡単に取得できました)

  • pdfboxを使用してテキストを抽出します

  • 650Mb のインデックス (455600 solrdocuments)を作成するのに390 分かかりました

4

1 に答える 1

1

1つの側面は、プロセスがマルチスレッド化されているかどうかです。そうでない場合は、複数のスレッドでpdfからテキストを抽出してテストし、インデックス作成のためにsolrに引き渡します。

于 2012-09-07T21:06:21.957 に答える