問題タブ [solr-cell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
284 参照

php - Zend Lucene を使用して Office 2003 以前のファイルを検索する

Office 2007 ファイルをサポートするオブジェクトが既に存在することは知っていますが、Office 2003 以前のネイティブ サポートはありますか?

0 投票する
1 に答える
1165 参照

pdf - Solr ExtractingRequestHandlerがpdfドキュメントに空のコンテンツを与える

ドキュメントのコンテンツを取得してインデックスを作成するために、Solr で ExtractingRequestHandler を使用しています。すべての Microsoft ドキュメントで正常に機能しますが、PDF の場合、抽出されるコンテンツは空です。また、curl で extractOnly=true を試してみましたが、これも空の本文だけを返します。

同じドキュメントでTIKAを個別に使用しましたが、コンテンツをうまく抽出できます。違いは、独立して行う場合、Solr で使用される SolrContentHandler の代わりに、Tika に付属の BodyContentHander を使用していることです。誰もこれを見たことがありますか?

私は、Tika を使用して Solr の外部にコンテンツを抽出するよりも、Solr に処理させたいと思っています。

0 投票する
3 に答える
40905 参照

solr - SOLRでドキュメントにインデックスを付けるにはどうすればよいですか?

Ubuntu10.04(apt-get solr-tomcatを介してインストール)でSolr 1.4を実行していますが、正常に動作しているようです。ただし、ドキュメントのインデックスを作成する方法に関する一貫した情報を見つけるのに苦労しています。私はSOLRを初めて使用するので、我慢してください。マウントされたWindows共有であるフォルダー(/ mnt / folder)があります。このフォルダーには、インデックスを作成したいWordファイルとPDFファイルが含まれています。SOLRでフォルダー全体のインデックスを作成する最も簡単な方法は何ですか?

SOLRのドキュメントはかなり貧弱で、それを使って物事を成し遂げるためのまともなチュートリアルを見つけることは不可能なので、どんな助けも大歓迎です!

S

0 投票する
1 に答える
424 参照

java - ソル; これは何を意味するのでしょうか?

solr の下のサンプル ディレクトリにある README.txt ファイルの最後に、次の行があります。

注: この Solr サンプル サーバーは、solrconfig.xml 内のステートメントを使用して、サーバー ディレクトリの外部にある SolrCell jar を参照します。このサンプル サーバーのコピーを作成し、ExtractingRequestHandler (SolrCell) を使用する場合は、必要な jar を solr/lib にコピーするか、solrconfig.xml 内の jar へのパスを更新する必要があります。

これは何を意味するのでしょうか?

solr をサーバーにアップロードする前に、何らかの調整を行う必要がありますか?

また、ご存知の場合は、Solr-nightly:s と通常の solr の違いは何ですか? チュートリアルには「solr-nightly.zip」と記載されていますが、ダウンロードセクションでは見つかりません。

0 投票する
1 に答える
2062 参照

solr - Solr の TikaEntityProcessor が機能しない

1 つの列がインデックスを作成したい PDF ドキュメントのファイル名であるデータベースを Solr にインデックスを作成させようとしています。私の構成は次のようになります。

トランクからSolrを使用しています(先週の時点で)。インポート プロセスはエラーなしで完了し、データベースから列を取得しますが、PDF ファイルのコンテンツは取得しません。PDF ファイルにアクセスしようとしているのは間違いありません。間違ったパス名を指定すると、問題が発生します。ただし、約 40 ミリ秒で完了するため、PDF のインデックス作成を試みているようには見えませんが、 を介して PDF をインポートすると、ExtractingRequestHandlerインデックス作成に約 11 秒かかります。

example-DIH で tika の例も試しましたが、それも何もインデックス化されていないようです。私は何か間違ったことをしていますか、それともこれはまだ機能していませんか?

OSX 10.6.3 で Java 1.6.0_20 を実行しています。

(私はすでにこれを solr-user メーリング リストに投稿しましたが、回答が得られなかったことに注意してください。)

0 投票する
1 に答える
627 参照

search - バイナリ/構造化ドキュメントをSOLRに送信する方法は?

ドキュメントのテキストを取り込むためにSOLR のExtractingRequestHandlerを使用しています。

ドキュメントの例はすべて、次のように curl を使用してドキュメントをストリーミングします。

これで問題なく動作しますが、次の注意事項があります。

「curl」またはその他のコマンド ライン ツールを使用してドキュメントを Solr に投稿することは、テストには適していますが、最高のパフォーマンスを得るために推奨される更新方法ではありません。

ドキュメントの SOLR への送信に関するセクションは TODO です。代替方法にはどのようなものがありますか? また、どのように優れていますか?

0 投票する
1 に答える
1720 参照

solr - SOLR Tika: ファイルのテキストを既存のレコードに追加 (ExtractingRequestHandler)

「名前」、「タイトル」、および「説明」フィールドを使用して、SOLR の投稿にインデックスを付けています。後で Tika / ExtractingRequestHandler を使用してファイル (Word ドキュメントや PDF など) を追加できるようにしたいと考えています。

次のようにドキュメントを追加できることを知っています:(または他のインターフェースを介して)

curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"

しかし、これは正しい投稿 (上記の post1) を置き換えます。レコードにのみ追加するために渡すことができるパラメーターはありますか?

0 投票する
1 に答える
814 参照

pdf - PDF ドキュメントのインデックス作成

PDFドキュメントをインデックス化する最良の方法は何ですか? PDF ドキュメントを txt に変換してインデックスを作成する必要がありますか、それとも PDF ファイルのインデックスを作成するためのより良い方法がありますか?

0 投票する
2 に答える
2573 参照

solr - Apache Solr 1.4.1 で Apache Tika を構成する方法

多数の PDF ドキュメントにインデックスを付けたいと考えています。

Apache Tika を使用して実行できることを示すリファレンスを見つけましたが、残念ながら、Solr 1.4.1 で Apache Tika を構成できることを説明するリファレンスを見つけることができません。

構成したら、構成済みですが、curl を使用せずにドキュメントを Solr に直接送信するにはどうすればよいですか?

インデックス作成にsolrnetを使用しています。

0 投票する
1 に答える
1899 参照

java - Solr CELL の ExtractingRequestHandler を使用して、パッケージ形式からファイルをインデックス化/抽出する

ExtractingRequestHandler と Tika を任意の圧縮ファイル形式 (zip、tar、gz など) で使用して、インデックス作成のためにコンテンツを抽出できますか?

curl を使用して solr に archived.tar ファイルを送信しています。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" ドキュメントをクエリすると、アーカイブ内のファイル名が「body_texts」としてインデックス付けされているという結果が得られますが、それらのファイルのコンテンツは抽出または含まれていません。これは私が期待した動作ではありません。参照: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example . 同じcurlコマンドを使用してアーカイブ内の実際のドキュメントの1つを送信すると、抽出されたコンテンツが「body_texts」フィールドに保存されます。

http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cellのマットで示されているように、すべての抽出依存関係を追加し、 MS Word、PDF、HTML ドキュメントからデータを正常に抽出できます。

以下のライブラリバージョンを使用しています。Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4

私が読んだすべてのことを考えると、このバージョンの Tika は、圧縮ファイル内のすべてのファイルからのデータの抽出をサポートするはずです。ヘルプや提案をいただければ幸いです。