“solr-cell”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2768 参照

pdf - Solr を使用したページ番号付きの PDF のインデックス作成

ExtractingRequestHandler を使用して、Solr で PDF のインデックスを作成しています。ドキュメントのヒットとともにページ番号を表示したいと思います。たとえば、「用語は2、3、5 ページfooに見つかりました」などです。bar.pdf

このようにクエリ結果にページ番号を含めることはできますか?

2010-11-04T06:05:15.957

0 投票する

1 に答える

4223 参照

solr - /solr/update で索引付けするときに SOLR ドキュメントをブーストする方法

Web サイトのインデックスを作成するために、Ruby スクリプトを使用して、ドキュメントルート内のすべてのファイルを Solr にアップロードするシェルスクリプトを生成します。シェルスクリプトには、次のような多くの行があります。

...そして次で終わります:

これにより、ドキュメントルート内のすべてのドキュメントが Solr にアップロードされます。tika と ExtractingRequestHandlerを使用して、ドキュメントをさまざまな形式 (主に PDF と HTML) で Solr にアップロードします。

このシェルスクリプトを生成するスクリプトでは、id フィールド (a/k/a url) が特定の正規表現に一致するかどうかに基づいて、特定のドキュメントをブーストしたいと考えています。

これらがブースティングルール (疑似コード) であるとしましょう。

そのインデックス時間ブーストを http リクエストに追加する最も簡単な方法は何ですか?

私は試した：

と：

どちらも検索結果の順序に違いはありませんでした。私が望むのは、ユーザーが何を検索したかに関係なく、ブーストされた結果が検索結果の最初に表示されることです (もちろん、ドキュメントにクエリが含まれている場合)。

XML 形式で POST する場合、ドキュメント全体または特定のフィールドのブースト値を指定できることを理解しています。しかし、そうするとドキュメントの内容としてファイルを指定する方法がわかりません。実際、tika ページには部分的な例が示されています。

しかし、ここでもブーストを指定する場所/方法が明確ではありません。私は試した：

と

どちらも検索結果を変更しませんでした。

ドキュメントのコンテンツを変更せずにドキュメントのブースト属性のみを更新する方法はありますか (特定のフィールドではありません)。もしそうなら、私は2つのステップで私の目標を達成することができます.

solr apache-tika solr-cell

2011-02-09T02:24:10.320

0 投票する

1 に答える

5454 参照

java - SolrJでpdfのコンテンツに索引を付ける方法は?

http://wiki.apache.org/solr/ContentStreamUpdateRequestExampleで説明されているように、SolrJ を使用していくつかの pdf ドキュメントのインデックスを作成しようとしています。以下にコードがあります。

残念ながら、*:* のクエリを実行すると、インデックス付きドキュメントのリストが取得されますが、コンテンツフィールドは空です。上記のコードを変更して、ドキュメントのコンテンツも抽出するにはどうすればよいですか?

以下は、このドキュメントを説明する xml frament です。

この問題は Apache Tika の不適切なインストールに関連しているとは思いません。以前はいくつかの ServerException が発生していましたが、必要な jar を正しいパスにインストールしたからです。さらに、同じクラスを使用して txt ファイルのインデックスを作成しようとしましたが、attr_contentフィールドは常に空です。

java solr solr-cell

2011-04-17T13:06:44.267

0 投票する

1 に答える

1943 参照

solr - Solr 3.1 で Tika 0.9 を構成する方法

Solr 3.1 で Tika 0.9 を構成する手順を教えてください。

これはsolrconfig.xmlで使用して構成します

ありがとう、

solr apache-tika solr-cell

2011-04-20T06:36:02.317

0 投票する

1 に答える

3168 参照

solr - ティカソル統合

curl ベースのリクエストを使用してインデックスを作成しようとしています

リクエストは

リクエストを送信すると、このエラーが発生します。

solr full-text-search apache-tika solr-cell

2011-05-31T11:28:52.167

0 投票する

1 に答える

785 参照

solr - Solr Cell / ExtractingRequestHandler が一部の *.doc ファイルを解析できない

ユーザーがアップロードした doc/docx/pdf ファイルのコンテンツにインデックスを付け、そのために Solr (1.4.1) ExtractingRequestHandler コンポーネント (817165) を使用する必要があります。それが重要な場合は、インデックス作成を要求しません。コンポーネントは常にドキュメントのテキストコンテンツのみを返す extractOnly パラメーターを使用して呼び出され、それ自体をすぐにインデックスに追加することはありません (その後、コンテンツはインデックスに追加されます。" outside」を標準的な手順に従ってドキュメントのテキストフィールドとして入力します)。

ただし、一部のファイルは解析されず、コンポーネントは 500 Internal Server Error を返し、その他の詳細は提供されません。ユーザーが送信したすべての *.doc ファイルのうち、約 30% が解析に失敗しています。

Solr の読み込みの問題ではありません。解析できないファイルは、同じリストを何度も解析すると常に同じです。サイズの問題でもありません - それらの多くは、正常に解析された他のものよりも小さいです。どうやら、それは独特のフォーマットに関するものではありません (または、少なくともそれは明白ではありません) - 解析に失敗したほとんどすべてのドキュメントには、色付きのフォント、表、および画像がありますが、正常に解析されたドキュメントの多くも同じです。

これらのファイルはすべて Word で開かれ、警告やエラーは発生しません。それらを docx として保存すると、Solr はそれらを正しく解析し始めますが、同じ内容の同じ doc 形式でそれらを再保存しても役に立ちません。それでも、すべてのコンテンツが削除され、いくつかの lorem ipsum テキストに置き換えられ、ドキュメントとして保存された場合、それらは正しくなります。

コンテンツの置換が役立つため、ドキュメントで使用されるいくつかの要素を含むものである必要がありますが、Tika Formatsページには、ドキュメントの解析が失敗した場合の説明はありません。

サンプルファイルをアップロードしましたが、これを試してみたいという好奇心があれば、解析に失敗します (このファイルは、Windows Live が "オンラインドキュメント" に変換するのを防ぐためにアーカイブされています)。

現在、回避策として、古いアンチワードユーティリティを使用して、Solr が失敗する *.doc を解析します (アンチワードはそれらを完全に解析します)。それでも、それは明らかに松葉杖であり、他の誰かが同じ問題に直面しているのだろうか.

または、それが既知の問題である場合、それを解決するためのよりエレガントな方法は何ですか (アンチワードに頼るのは好きではありません)。

solr ms-word doc apache-tika solr-cell

2011-06-16T08:45:15.713

0 投票する

1 に答える

3468 参照

solr - Solr : データインポートハンドラと solr セル

solr セルを使用してデータインポートハンドラを使用してリッチドキュメント (pdf、office) のインデックスを作成することは可能ですか。

私はsolr3.2を使用しています。

ありがとう。

solr apache-tika dataimporthandler solr-cell

2011-07-13T08:38:03.910

0 投票する

1 に答える

1293 参照

python - doc、docx、pdfファイルのサポートが組み込まれたテキストインデクサー（Python用）

私は現在、Pythonプログラムのテキストインデクサーを探しています。LuceneプロジェクトであるSolrと、PythonにネイティブなWhooshを最終候補に挙げました。doc、docx、pdfファイルのサポートに関する多くのドキュメントを検索しましたが、SolrはTikaパッケージを指摘し続けました。TikaパッケージのバージョンはSolrと統合されています。

いずれかのパッケージに3つの形式のサポートが組み込まれている場合、結果には特定の用語が記載されていません。WhooshとSolrはそれらをサポートしていますか？これらの形式をネイティブに読み取る他のオープンソースインデクサーはどれですか？

python solr full-text-search whoosh solr-cell

2011-07-16T11:07:30.553

0 投票する

1 に答える

1461 参照

solr - キーワードを検索した後、Solrがドキュメントを開きます

いくつかのPDFドキュメントにインデックスを付けてから、検索UIを作成しようとしています。

この質問はやや関連しています

Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します

1）PDFドキュメントのインデックス作成-> tika jarを使用してPDFをテキストファイルに変換してから、curlコマンドを使用してインデックスを作成します。

2）検索UI-> Solritasブラウズ機能とその組み込みUIを使用しています。

目的：

インデックス付けされたドキュメントのリストで「Lucene」という単語を検索し、指定されたクエリの結果セットを取得したときに、返されたドキュメントごとにリンクを表示し、開くことができるはずのドキュメントをクリックすると表示されます。そのドキュメント。

私の現在の考え：

ステップ1を双方向のステップから直接インデックスを作成する単一のステップに変更する必要があるかもしれないと思います。これらのPDFドキュメントの場所を示す追加のフィールドがschema.xmlにあるはずだとさえ思います。

いくつかの提案を教えてください

solr full-text-search apache-tika solr-cell

2011-07-25T18:54:16.117

問題タブ [solr-cell]

Reference