問題タブ [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - solr の抽出機能を使用しているときに動的フィールドにデータを追加するにはどうすればよいですか?
Solr サーバーとのインターフェイスとして、solr-php-client (http://code.google.com/p/solr-php-client/) という PHP ライブラリを使用しています。ドキュメントからデータを抽出して保存し、検索することはできますが、インデックス作成用のパラメーターに独自のデータを追加することはできないようです。
「テキスト」をクエリして結果を取得できます。
しかし、動的フィールド、つまり「SS_Stage_ms」のいずれにもクエリを実行できません。
該当するスキーマ定義は次のとおりです。
drupal - ExtractingRequestHandler を Solr で動作させる
Drupal Web サイトで Word および PDF ドキュメントのインデックスを作成できるように、Solr を Tika と連携させようとしています。
Wikiページとこのページを見たところ、solrconfig.xmlにrequestHandlerを追加することが示されています。
私はそれを行いましたが、Solr は例外をスローします。
org.apache.solr.common.SolrException: クラス 'org.apache.solr.handler.extraction.ExtractingRequestHandler' のロード中にエラーが発生しました
私はいくつかの検索を行い、他の人がこの問題を抱えていることを確認しましたが、簡単な修正は見られません. Windows Server 2003でSolr 3.4.0を使用しています。これを解決する方法についてのアイデアはありますか?
補足として、検索にSolrを使用するDrupalを持っていますが、それは機能しています。しかし、私がうまくいかないのは、Solr が PDF および Word ドキュメントにインデックスを付けることです。これはほとんどの Web サイトで共通のニーズであることは確かですが、私はこれに何日も費やしてきましたが、これほど文書化されておらず、これを理解するのが難しいとは信じられません。
ruby-on-rails - rsolrでファイルをアップロードするには?
Solr サーバーでインデックスを作成する必要があるファイルがあります。ファイルをアップロードするにはどうすればよいですか? curl でそれを行う方法を知っています: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"
( http://wiki.apache.org/solr/ExtractingRequestHandlerから) しかし、それを rsolr rubygem に変換する方法がわかりません。
前もって感謝します。
solr - Solr ExtractingRequestHandler pdfテキスト抽出
Solr の PDF テキスト抽出に問題があります。Solr は Apache Tika を使用して PDF ファイルのテキストを抽出し、tika はそのために PDFBox を使用します。PDF ファイルを Solr に送信すると、テキストは正常に抽出されますが、テキストが完全にめちゃくちゃになります。そんな感じ
MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht
しかし、次のコマンドを使用してコマンドラインで PDFBox を使用して同じ PDF ファイルを直接抽出すると、良い結果が得られます。
java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf
どの Tika バージョンまたはそれ以上の PDFBox バージョンが solr で使用されているかわかりません。solr warファイルでそのライブラリを見つけることさえできません... libディレクトリ内のすべてのライブラリは次のとおりです。
誰かがそれに対する解決策を知っていれば、本当にうれしいです。
solr - ファセット用に SOLR でフィールドをマッピングする
SOLR 3.4 を使用してリッチ テキスト ドキュメントのインデックスを作成していますが、希望どおりExtractingRequestHandler
に動作させるのに問題があります。
後でファセット検索に使用するフィールドとして作成日を保存したいと考えており、 で次のように定義していますschema.xml
。
私はこのように索引付けします:
動的フィールドを取得しますattr_creation_date
(他のルールが確認します) が、creation_date
. 私もcopyField
次のように使用しようとして失敗しました:
さらに別の試みはこれを に入れていましsolrconfig.xml
たが、うまくいきませんでした:
ここで基本的な何かが欠けていると確信しています。どんな助けでも大歓迎です!
ExtractingRequestHandler
の設定solrconfig.xml
:
私のschema.xml
ファイル (多くのデフォルトのもの): https://gist.github.com/1358002
solr - リッチ ドキュメントをインポートするときの SOLR の schema.xml のベスト プラクティスはありますか?
私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。
を使用する場合、ベスト プラクティスschema.xml
および/またはsolrconfig.xml
SOLR で使用する方法はありExtractingRequestHandler
ますか?
私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。
ベスト プラクティスのようなものが存在しない場合、schema.xml
および/またはsolrconfig.xml
、できれば既存のオープン ソース プロジェクトや優れたブログ投稿からの良い例にも興味があります。
どんなポインタでも大歓迎です!
solr - NoClassDefFoundError PDF 抽出での MimeTypeException
PDF ファイルで update/extract を使用しようとすると例外が発生します
私のセットアップは次のとおりです。- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
solr/admin を参照できます OK
すべての contrib/extract および apache-solr-cell3.5.0.jar ライブラリを tomcat フォルダー webapps/solr/WEB-INF/lib に配置しました。
次を使用して抽出を呼び出しています:-
エラーは
ポインタをいただければ幸いです - このエラーが他の場所で発生するように見えるのは、Nutch とキャッシュされた結果の場合のみです。
クエリ文字列と *.doc ファイルで MIME タイプを送信しようとしましたが、同じエラーが発生しました。
solr - ExtractingRequestHandler - 多値リテラル フィールドをどのようにポストしますか?
リテラルの多値フィールドを PDF 抽出とともに投稿しようとしています。フィールド値の 1 つだけがインデックスに追加されているようです。これは別の方法で渡す必要がありますか?
現在、(POST 値を介して) 同等のものを送信しています:
solr - TikaSolrメタデータマッピングはドキュメントタイトルを無視します
solr用に次の設定ファイルがあります。
これが私のスキーマです:
自分を設定したいtitle
。しかし、Tikaは独自に設定し続けますtitle
(そのため、一時的に設定します)。これは、やmultiValued="true"
のようなものを手動でマップする必要があるため、奇妙に感じます。stream_size
content_type
この問題に対してどのような解決策がありますか?
title
次のように、Tikaに割り当てたものを上書きしてもらいたいです。
私は3つのドキュメントを持っていますが、そのうちの1つは、Tikaがを抽出しませんtitle
。この場合、私は自分のタイトルを渡して設定しますliteral.title
。Tikaがを抽出するときは、title
渡したものをオーバーライドしますliteral.title
。これは可能ですか?
java - Solr ドキュメントの段落を取得する
私は数日間 solr を使用してきましたが、ドキュメントを段落に分割してから、すべての段落を検索する必要があります。私は多くのことを試しましたが、solr は段落を正しくキャプチャしたくありません。何もキャプチャしないか、すべてを 1 つの大きなテキストとしてキャプチャします。私は試した:
どんな組み合わせを試しても、常に間違った結果になります。段落を取得して使いやすくする方法を知っている人はいますか? 基本的なクエリ ベースの要約を実行し、クエリに関する情報が最も多い段落を取得するプラグインを作成していますが、段落を取得する方法がわかりません。
ありがとう!