問題タブ [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - spring-data-solr を Tika と統合する方法はありますか?
構成を介して、Spring-data-solr を Tika で使用する方法はありますか? ContentStreamUpdateRequest+addfile
それ以外の場合、 spring-data-solrの solrj に代わるものはありますか?
現在、Solrj + Tika を次のように使用しています。
このExtractingRequestHandlerガイドにうまく従うことで、このメソッドにたどり着きました。
spring-data-solr
Solr 4.3.0 を使用して、Solrj を直接呼び出す代わりに、を介して同じ結果を得ることができますか?
solr - リンクの「rect」を抽出するSolr ExtractingRequestHandler
私は solr ExtractingRequestHandler を利用して HTML コンテンツを抽出し、インデックスを作成しています。私の問題は、それが生成する抽出されたリンクセクションにあります。返された抽出されたコンテンツには、HTML ソースに存在しない場所に「rect」が挿入されています。
solrconfig セル構成は次のとおりです。
そして、次のetnriesを持つ私のsolr schema.xml:
次の HTML を sorl セルに投稿します。
Solr には次のインデックスがあります。
すべてのリンク間の「rect」に注意してください。solr cell や tika がこれらを挿入するのはなぜですか? 使用するtika構成ファイルを定義していません。tika を設定する必要がありますか?
solr4 - Solr: フィールドでステミングを実行し、最も頻繁にステミングされた単語のソートされたリストを取得します
インデックス時にフィールドでステミングを使用し、クエリ時に元の出現頻度によってステミングされた単語の並べ替えられたリストを取得する方法はありますか。
たとえば、「テキスト」フィールドにドキュメントのコンテンツがあり、次の単語のみが含まれているとします。
歩く 歩く 歩いた 動いた 走る 走る。
このフィールドでステミングを使用して、元の単語の出現順に並べ替えられた基本フォームを取得したいと考えています。
歩く 走る 動く
私の理解では、solrはステミングを使用してwalk、walking、walkedを1つのベースフォームwalkに減らし、それをインデックスに保存します。カウントを取得するのではなく、単語のリストだけを取得することに興味があります。solr はインデックス時にそのような単語数を追跡しますか? これが私の構成です:
私のschema.xmlにはテキストフィールドがあります:
と
フィールド タイプ「text_general」は次のように定義されます。
手伝ってくれてありがとう。
solr - Apache TIKA および Solr Cell を Solr と統合して、PDF および Word ドキュメントのインデックスを作成する
solr 検索エンジンを使用して、pdf および word ドキュメントのインデックスを作成するために POC を実行しています。詳細レベルの情報や記事を検索しようとしましたが、詳細な記事が\見つかりませんでした。私が見つけたのは、いくつかのsolrパッケージが提供する例を使用することです。それは私が要求するものではありません。
私が持っている現在の情報は、Solr Cell と Apache Tika を使用して PDF ドキュメントにインデックスを付けることができるというものです。
いくつかのステークオーバーフローからリンクhttp://wiki.apache.org/solr/ExtractingRequestHandlerを見つけましたが、それはチュートリアルではなく、私がやりたいことをするための手順もありません。また、solrnetを使って.netアプリケーションからsolrを呼び出したいです。
Solr 5.1 バージョンを使用しています。
以下のようにsolrリファレンスドキュメントから実行したサンプルコードを提供しています
サンプル solr インスタンスを techproducts コアで開始しました。その後、以下のコマンドを実行してpdfドキュメントにインデックスを付けました。
それは完璧に機能しました。
その後、Tomcat がホストする solr サーバーから新しいコアを作成し、その上で同じ curl コマンドとレシーバー エラーを実行しようとしました。以下のリクエストハンドラーコードをsolrconfig.xmlに追加しました
脚本:
エラー:
何か見逃しましたか?
pdf - 空のコンテンツ フィールドを与える Solr ExtractingRequestHandler
Solr 6.2.1と ExtractingRequestHandler ( Solr 6.2.1には既に含まれています) を使用して、pdf および word ドキュメントのインデックスを作成しています。すべての文書 (pdf および単語) はメタデータ (タイトル、日付、cp_revision、会社など) で索引付けされますが、コンテンツ フィールドは常に空です。
ドキュメントによると、空でないコンテンツ フィールドが必要です。「Tika は、抽出されたすべてのテキストをコンテンツ フィールドに追加します。」
content フィールドが空である理由を知っている人はいますか? この投稿の回答によると、ファイルを非バイナリ モードで開いているためかもしれませんが、バイナリ モードでそれを行うにはどうすればよいですか?
これは私のsolrconfig.xmlファイルです: