問題タブ [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - Solr を使用したページ番号付きの PDF のインデックス作成
ExtractingRequestHandler を使用して、Solr で PDF のインデックスを作成しています。ドキュメントのヒットとともにページ番号を表示したいと思います。たとえば、「用語は2、3、5 ページfoo
に見つかりました」などです。bar.pdf
このようにクエリ結果にページ番号を含めることはできますか?
solr - /solr/update で索引付けするときに SOLR ドキュメントをブーストする方法
Web サイトのインデックスを作成するために、Ruby スクリプトを使用して、ドキュメント ルート内のすべてのファイルを Solr にアップロードするシェル スクリプトを生成します。シェル スクリプトには、次のような多くの行があります。
...そして次で終わります:
これにより、ドキュメント ルート内のすべてのドキュメントが Solr にアップロードされます。tika と ExtractingRequestHandlerを使用して、ドキュメントをさまざまな形式 (主に PDF と HTML) で Solr にアップロードします。
このシェル スクリプトを生成するスクリプトでは、id フィールド (a/k/a url) が特定の正規表現に一致するかどうかに基づいて、特定のドキュメントをブーストしたいと考えています。
これらがブースティング ルール (疑似コード) であるとしましょう。
そのインデックス時間ブーストを http リクエストに追加する最も簡単な方法は何ですか?
私は試した:
と:
どちらも検索結果の順序に違いはありませんでした。私が望むのは、ユーザーが何を検索したかに関係なく、ブーストされた結果が検索結果の最初に表示されることです (もちろん、ドキュメントにクエリが含まれている場合)。
XML 形式で POST する場合、ドキュメント全体または特定のフィールドのブースト値を指定できることを理解しています。しかし、そうするとドキュメントの内容としてファイルを指定する方法がわかりません。実際、tika ページには部分的な例が示されています。
しかし、ここでもブーストを指定する場所/方法が明確ではありません。私は試した:
と
どちらも検索結果を変更しませんでした。
ドキュメントのコンテンツを変更せずにドキュメントのブースト属性のみを更新する方法はありますか (特定のフィールドではありません)。もしそうなら、私は2つのステップで私の目標を達成することができます.
java - SolrJでpdfのコンテンツに索引を付ける方法は?
http://wiki.apache.org/solr/ContentStreamUpdateRequestExampleで説明されているように、SolrJ を使用していくつかの pdf ドキュメントのインデックスを作成しようとしています。以下にコードがあります。
残念ながら、*:* のクエリを実行すると、インデックス付きドキュメントのリストが取得されますが、コンテンツ フィールドは空です。上記のコードを変更して、ドキュメントのコンテンツも抽出するにはどうすればよいですか?
以下は、このドキュメントを説明する xml frament です。
この問題は Apache Tika の不適切なインストールに関連しているとは思いません。以前はいくつかの ServerException が発生していましたが、必要な jar を正しいパスにインストールしたからです。さらに、同じクラスを使用して txt ファイルのインデックスを作成しようとしましたが、attr_contentフィールドは常に空です。
solr - Solr 3.1 で Tika 0.9 を構成する方法
Solr 3.1 で Tika 0.9 を構成する手順を教えてください。
これはsolrconfig.xmlで使用して構成します
ありがとう、
solr - ティカソル統合
curl ベースのリクエストを使用してインデックスを作成しようとしています
リクエストは
リクエストを送信すると、このエラーが発生します。
solr - Solr Cell / ExtractingRequestHandler が一部の *.doc ファイルを解析できない
ユーザーがアップロードした doc/docx/pdf ファイルのコンテンツにインデックスを付け、そのために Solr (1.4.1) ExtractingRequestHandler コンポーネント (817165) を使用する必要があります。それが重要な場合は、インデックス作成を要求しません。コンポーネントは常にドキュメントのテキスト コンテンツのみを返す extractOnly パラメーターを使用して呼び出され、それ自体をすぐにインデックスに追加することはありません (その後、コンテンツはインデックスに追加されます。" outside」を標準的な手順に従ってドキュメントのテキスト フィールドとして入力します)。
ただし、一部のファイルは解析されず、コンポーネントは 500 Internal Server Error を返し、その他の詳細は提供されません。ユーザーが送信したすべての *.doc ファイルのうち、約 30% が解析に失敗しています。
Solr の読み込みの問題ではありません。解析できないファイルは、同じリストを何度も解析すると常に同じです。サイズの問題でもありません - それらの多くは、正常に解析された他のものよりも小さいです。どうやら、それは独特のフォーマットに関するものではありません (または、少なくともそれは明白ではありません) - 解析に失敗したほとんどすべてのドキュメントには、色付きのフォント、表、および画像がありますが、正常に解析されたドキュメントの多くも同じです。
これらのファイルはすべて Word で開かれ、警告やエラーは発生しません。それらを docx として保存すると、Solr はそれらを正しく解析し始めますが、同じ内容の同じ doc 形式でそれらを再保存しても役に立ちません。それでも、すべてのコンテンツが削除され、いくつかの lorem ipsum テキストに置き換えられ、ドキュメントとして保存された場合、それらは正しくなります。
コンテンツの置換が役立つため、ドキュメントで使用されるいくつかの要素を含むものである必要がありますが、Tika Formatsページには、ドキュメントの解析が失敗した場合の説明はありません。
サンプル ファイルをアップロードしましたが、これを試してみたいという好奇心があれば、解析に失敗します (このファイルは、Windows Live が "オンライン ドキュメント" に変換するのを防ぐためにアーカイブされています)。
現在、回避策として、古いアンチワードユーティリティを使用して、Solr が失敗する *.doc を解析します (アンチワードはそれらを完全に解析します)。それでも、それは明らかに松葉杖であり、他の誰かが同じ問題に直面しているのだろうか.
または、それが既知の問題である場合、それを解決するためのよりエレガントな方法は何ですか (アンチワードに頼るのは好きではありません)。
solr - Solr : データ インポート ハンドラと solr セル
solr セルを使用してデータ インポート ハンドラを使用してリッチ ドキュメント (pdf、office) のインデックスを作成することは可能ですか。
私はsolr3.2を使用しています。
ありがとう。
python - doc、docx、pdfファイルのサポートが組み込まれたテキストインデクサー(Python用)
私は現在、Pythonプログラムのテキストインデクサーを探しています。LuceneプロジェクトであるSolrと、PythonにネイティブなWhooshを最終候補に挙げました。doc、docx、pdfファイルのサポートに関する多くのドキュメントを検索しましたが、SolrはTikaパッケージを指摘し続けました。TikaパッケージのバージョンはSolrと統合されています。
いずれかのパッケージに3つの形式のサポートが組み込まれている場合、結果には特定の用語が記載されていません。WhooshとSolrはそれらをサポートしていますか?これらの形式をネイティブに読み取る他のオープンソースインデクサーはどれですか?
solr - キーワードを検索した後、Solrがドキュメントを開きます
いくつかのPDFドキュメントにインデックスを付けてから、検索UIを作成しようとしています。
この質問はやや関連しています
Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します
1)PDFドキュメントのインデックス作成-> tika jarを使用してPDFをテキストファイルに変換してから、curlコマンドを使用してインデックスを作成します。
2)検索UI-> Solritasブラウズ機能とその組み込みUIを使用しています。
目的 :
インデックス付けされたドキュメントのリストで「Lucene」という単語を検索し、指定されたクエリの結果セットを取得したときに、返されたドキュメントごとにリンクを表示し、開くことができるはずのドキュメントをクリックすると表示されます。そのドキュメント。
私の現在の考え:
ステップ1を双方向のステップから直接インデックスを作成する単一のステップに変更する必要があるかもしれないと思います。これらのPDFドキュメントの場所を示す追加のフィールドがschema.xmlにあるはずだとさえ思います。
いくつかの提案を教えてください