問題タブ [solrcloud]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - SolrCloud ドキュメントの挿入/更新
現在、solrcloud を使用して検索アプリケーションに取り組んでいます。探していたsolrcloudの多くの機能をテストしました.solrjクライアント(任意のフレーバーHttp、embedded、cloud ...)を使用してクラウドに挿入/更新/削除するか、lucene APIを直接使用して書き込むかを知りたいですsolrcloud 内の任意のサーバーのディレクトリにインデックスを付けるには、solrcloud はこの変更をクラウド内のすべてのノードに配布しますか?
solrcloud は、インデックスに加えられたこれらの変更を検出できますか? (私は REST API を使用していないため)
誰でも説明できますか、とても役に立ちます
ありがとう
solrcloud - how shards know about eachother in solrcloud?
If we start a SolrCloud with 2 shards. By a hash function algorithm(Murmur) documents are distributed over 2 shards. It is claimed that we can send the query to any of the cores and it will go to the write shard because the shards know about each other. I want to know how they know about each other?
java - 1,600万件を超えるツイートでSolrクエリの速度を向上
私はSolr(SolrCloud)を使用して、ツイートのインデックス作成と検索を行っています。ツイート数は約1600万件で、インデックスサイズは約3GBです。ツイートはリアルタイムでインデックスに登録されるため、リアルタイム検索が可能になります。現在lowercase
、ツイートの本文フィールドにはフィールドタイプを使用しています。検索内の単一の検索用語の場合、約7秒かかり、各検索用語を追加すると、検索にかかる時間は直線的に増加します。3GBは、solrプロセスに割り当てられる最大RAMです。サンプルのSolr検索クエリは次のようになります
検索速度を向上させるための提案はありますか?現在、ツイートコレクション全体を含むシャードを1つだけ実行しています。
solr - 複雑なクエリパフォーマンスの最適化のためのSolrシャーディング
高負荷サイトのドキュメントのインデックスは比較的小さく、約1百万です。私はそれに対して比較的複雑な関数クエリを実行していますが、パフォーマンスは許容できません。したがって、現在のマスター+スレーブトポロジを少なくとも3つのシャードとn個のレプリカを持つSolrCloudに移動することをためらっています。これにより、すべての関数クエリがシャード全体に分散され、応答時間は少なくとも3分の1になり、結果セットをマージする際のフットプリントが小さくなります(それは本当ですか?)したがって、私の質問は、インデックスサイズの問題(インデックスをシャーディングする最も一般的な理由)ではなく、パフォーマンスの問題を解決するためにシャーディング(および複雑さを追加)する価値があるということです。
tomcat - solrconfig.xmlでシャード番号/zookeeperパスを指定するにはどうすればよいですか?
solr 4チュートリアルの例では、start.jarからsolrを開始できることを示しています。
WARファイルからのTomcatで開始したい(initctlデーモンを構成したので、より簡単で安定します)。そのため、構成ファイルsolr.xmlまたはsolrconfig.xmlのどこかにこれらのクラウドパラメーターを指定する必要があります。これどうやってするの?
solr - Solr クラウド インデックス作成のハング
現在、solrcloud を使用していますが、インデックス作成プロセスがハングする可能性がある問題に直面しています。
私の展開は、5 台のマシンで実行されている 5 つのシャードを持つ 1 つのコレクションのみです。毎日、50m のドキュメントを持つ dataimporthandler を使用して完全なインデックスを作成します。そして、solrcloud の分散インデックス作成を使用して、5 台のマシンのうちの 1 台でインデックス作成をトリガーします。
私は、時々 5 台のマシンのうちの 1 台が死亡することを発見しました。
そして、実際には_31xu.fnmが含まれていないインデックスディレクトリを確認しました。インデックス作成の分散に同時発生のバグがあるのではないかと思っています。
私が知る限り、分散インデックス作成はこのような作業です。ドキュメントは任意のシャードに送信でき、ドキュメントはハッシュ ID に従ってシャードを修正するように指示します。dataimporthandler は、updatehandler を使用してドキュメントを正しいシャードに転送します。最後に、ドキュメントは DocumentsWriterPerThread を介してディスクにフラッシュされます。シャードから送信された更新リクエストが多すぎてインデックス作成がトリガーされて問題が発生したのではないかと思っています。私の推測は、死んだマシンで見つけたものに基づいています。多くのインデックス セグメントがあり、それぞれが非常に小さいです。
私はsolrにあまり詳しくありません。私の推測はまったく意味がないかもしれません。誰か何か考えがありますか? ありがとう
search - edismax ignore シノニムとストップワードを使用した RequestHandler
my に次のクエリが定義されていますsolrconfig.xml
。
それはかなりうまく機能しますが、私のストップワードと同義語ファイルを無視するだけです。
何が起こっているのか理解できず、それを修正する方法もわかりません。何か助けはありますか?
編集
solr - Solrクラウドの結果のグループ化
インデックスフィールドがほとんど含まれていないSolrスキーマがあります
今、私は「タイプ」フィールドによって区別されるさまざまなタイプの製品を持っています。検索リクエストごとに最大50の検索結果が必要ですが、検索の一部である場合、結果には各タイプの製品が少なくとも5つ含まれている必要があります。たとえば、コンピュータハードウェアストアの製品を検索する場合、検索結果には5つのHDDが含まれている必要があります5。これらの製品が検索結果である場合は、RAM、5 CPU、5マザーボードなど。
特定の製品タイプの返される行の合計が5未満の場合は、使用可能な行を含めてください。
ファセットクエリとクラスタリングを試しましたが、成功しませんでした。
何か案は ?これを達成する方法は?
solr - CloudSolrServer を SolrJ クライアントとして使用する
私の質問は、CloudSolrServer を使用しているときに、単一の zkHost アドレスと LBHttpSolrServer を指定することです。現在、CloudSolrServer は Zookeeper (zkHost) から生きているノードと死んでいるノードに関する情報を抽出し、リクエストを処理します。しかし、引数として指定された zkHost 自体がダウンした場合はどうなるでしょうか。複数の solr サーバー URL を受け入れる LBHttpSolrServer の場合のように、CloudSolrServer は複数の zkHost を受け入れる必要があると思います。
何か案が ?ありがとう
resources - Apache ZookeeperはサーバーのRAMに尋ねます
Zookeeper を使用してサーバー リソースを監視したり、使用可能な RAM の合計を表す数値を取得したりすることはできますか?