“solr-cell”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

1403 参照

ruby-on-rails - 最新バージョンのSunspotgemをSolrCellで使用するにはどうすればよいですか？

私は（無駄に）SolrCellで動作するSunspotgemの最新バージョン（現在は2.0.0.pre.111215、Solr 3.5を組み込んでいます）を入手しようとしています。

現在、古いバージョンのSunspotを、次のプラグインによって提供されるSolr Cellと組み合わせて使用しています-https ：//github.com/chebyte/sunspot_cell。

この構成のGemfileは次のとおりです。

残念ながら、Solr / Solrセルのこの古い組み合わせは、多くの新しいPDFファイルでは機能しません。Apacheが推奨する解決策は、両方の最新バージョンにアップグレードすることです。

SunspotSolrCellのボルトオンはあまりサポートされていないようです。最近更新されたバージョンがプラグインからGemに切り替えられましたが、それでも最新バージョンのSunspotGemで動作させることができません。https://github.com/zheileman/sunspot_cell

要素をうまく一緒に再生するための正しいGemfile構成を知っている人はいますか？私が持っている最も近いものはこれです。

rakeタスクを実行すると、次のエラーが発生します。

sunspot_cell gemを一時的にコメントアウトすると、Rakeタスクを実行できますが、実際の検索は失敗します。

sunspot_solrにバンドルされているファイルの代わりに、このgemのSolr jarファイルを手動で使用しようとしましたが、成功しませんでした。

2012-01-20T14:06:32.003

0 投票する

1 に答える

722 参照

pdf - Solr Cell でインデックス付き PDF を検索しても結果がありません

私はしばらくSolrを使用してきましたが、最近solr-cellコンポーネントを試し、いくつかのPDFにインデックスを付けていますが、このスレッドで提示されたのとまったく同じ問題があります。

管理コンソールで *:* を検索すると、PDF が一覧表示されます。ただし、PDF 内のコンテンツを検索しても結果が得られません。

そこにある回答のコマンドをすでに試しましたが、運がありませんでした。まだ同じ問題があり、さまざまなSolrバージョン（3.5 btwを使用しています）、さまざまなPDFで試しました。スキーマのフィールドを変更しました.xml で、solrconfig.xml の RequestHandlers を変更しましたが、何も機能していないようです。どんな助けでも大歓迎です。

pdf solr solr-cell

2012-02-06T23:03:52.273

0 投票する

1 に答える

2244 参照

solr - solrjを使用してPDFファイルにフィールドを追加する

私はsolrの初心者です。ContentStreamUpdateRequestを使用してsolrでインデックスを作成しているときに、フィールド/メタデータをpdfファイルに追加する際に問題が発生します。フィールドを追加するにはリテラルパラメーターを使用する必要があるため、次のことを試しました。

pdfファイルはsolrで索引付けされますが、問題は、すべてのフィールドがリテラルを使用して作成されているわけではないことです。次のフィールドが作成されています。

id
名前
カテゴリ。

url_fileやpathやlocationなどのフィールドは作成されませんが、 *場合によっては*フィールドCategoryは作成されません。
私が経験したことでは、メタデータを作成するためにリテラルパラメータを使用して任意のランダムフィールドを作成できます。idやname、さらにはblah_sなどのフィールドが常に作成されるのはなぜですか。ただし、上記のようなランダムフィールドを試すと、solr作成しませんか？
これらの確率場を他の場所でも宣言する必要がありますか？
どんな助けでも大歓迎です。
更新：メソッドup.setParam（ "literal.myField"）を呼び出して、schema.xmlを変更して新しいフィールドを作成しませんか？

solr solrj solr-cell

2012-03-02T13:14:20.860

0 投票する

1 に答える

4803 参照

solr - ApacheSolr-PDFファイルのインデックス作成

こんにちは私はバイナリディストリビューションでこれをやってみただけでなく、自分でソースコードをコンパイルしました。これをApacheTomcatでも実行してみました。しかし、インデックス作成の目的でpdfファイルを使用すると、常に次のエラーが発生します。Solrのサンプルプロジェクトで提供されているpost.jarを使用しています。

また、Win 7（JDK 1.7）とCentos（1.6）の両方でこれを実行してみました。

インターネットを検索したところ、バグトラッカーでJetty jarファイルのパッチが適用されたバージョンが見つかりましたが、それらを置き換えた後でも問題は解決しません。

私はここで立ち往生しているので、私はそれ以上の仕事を進めることができないので、本当に助けていただければ幸いです。

ありがとう

solr lucene solr-cell

2012-03-29T21:46:09.220

0 投票する

0 に答える

1533 参照

solr - #500 抽出で PDF を Solr インデックスに追加しようとすると内部サーバーエラーが発生する

私は初めての Solr ユーザーで、v3.5 を Windows 7 システムの Tomcat 7 で使用しています。example-docs の XML の例を問題なく実行しました。ただし、HTML および PDF ファイルで抽出を使用する必要があります。インデックス作成のために PDF ファイルを投稿しようとすると、次のようになります。

私が使用したコマンドは次のとおりです。

私のsolrホームディレクトリはC：\ solrで、これまでに次のことを行いました：

solr ダウンロードパッケージの example/solr フォルダーの内容をコピーしました
solr ダウンロードパッケージの contrib/extraction/lib フォルダーを C:\solr\lib にコピーしました
solr ダウンロードパッケージの dist/apache-solr-cell-3.5.0.jar を C:\solr\dist\apache-solr-cell-3.5.0.jar にコピーしました。
C:\solr\conf\solrconfig.xml の適切な「lib」タグを<lib dir="lib" />およびに変更しました。<lib dir="dist/" regex="apache-solr-cell-\d.*\.jar" />

PDF および HTML ファイルでこれを機能させるには、他に何をする必要がありますか? 複数のチュートリアルと「Getting Started」ガイドを読みましたが、何が問題なのか理解できません。私はTomcatの初心者でもあり、私が知る限り、これはTomcatのログに表示されていません...だから私はほとんど立ち往生しています. 繰り返しますが、XML の例に問題はありません。したがって、Tomcat 自体は正常に動作しており、solr を認識しています (solr 管理ページが表示されます)。どんな助けでも大歓迎です。

solr solr-cell

2012-04-12T04:02:52.440

0 投票する

1 に答える

245 参照

solr - データベースとdocファイルから同時にlucene/solrインポートレコードを使用して関連付けを行う方法

バイナリドキュメント情報 (ファイルメタ) をデータベースに格納し、バイナリドキュメントをファイルシステムに格納します。データベース内のファイル情報に関連付けられたファイル名を使用します。

これらすべてのデータ (バイナリドキュメントのファイルメタおよびフルテキストコンテンツ) を lucene solr にインポートしたいと考えています。

lucene/solr は、「Data Import Handler (DIH) を使用してデータベースからレコードをインポートする」を提供します。および「Word や PDF などのバイナリドキュメントに Solr セル (ExtractingRequestHandler) を使用してインデックスを付けます。」を使用して、それらのデータを個別にインポートします。

インポート後にsolr / luceneを使用してバイナリドキュメントとファイルメタを関連付けるにはどうすればよいですか

ありがとうございました

solr lucene solr-cell

2012-05-03T12:41:19.080

0 投票する

4 に答える

5500 参照

solr - SolrCell 経由の Tika からのメタデータを含まないテキストコンテンツ

Solr 3.6 と ExtractionRequestHandler (別名 Tika) を使用して、(PDF の) テキストコンテンツだけをフィールドからメタデータを除いたフィールドにマップすることは可能ですか? 残念ながら、Tika によって作成された「コンテンツ」フィールドには、ドキュメントのテキストコンテンツで変更されたすべてのメタデータが含まれています。

コンテンツのスニペットハイライトを提供したいのですが、コンテンツフィールド内のサブジェクトメタデータがハイライト結果をゆがめています。

更新: Solr によってインデックス付けされた Tika 出力のスクリーンショット。強調表示された部分は、テキストのブロックとして PDF コンテンツの先頭に追加されるメタデータのブロックです。

tika出力のsolrスクリーンショット

solrconfig.xml の ExtractingRequestHandler:

Schema.xml フィールド。「コンテンツ」は、Tika のコンテンツ出力を直接受け取ることに注意してください。「ページ」および「コレクション」フィールドは、ドキュメントがハンドラーにポストされるときにリテラル値で設定されます。

solr apache-tika solr-cell

2012-06-04T21:43:37.577

0 投票する

2 に答える

269 参照

solr - solrの空白で区切られたテキストファイルのすべての単語にインデックスを付けますか?

アプリケーションにsolr 3.6を実装しています.テキストファイルに以下のデータがあるため..

**

date=2011-07-08 time=10:55:06 timezone="IST" device_name="CR1000i" device_id=C010600504-TYGJD3 deployment_mode="Route" log_id=031006209001 log_type="ウイルス対策" log_component="FTP" log_subtype= "Clean" status="Denied" priority=Critical fw_rule_id="" user_name="hemant" virus="codevirus" FTP_URL="ftp.myftp.com" FTP_direction="download" filename="hemantresume.doc" file_size="550k " file_path="deepti/virus.lnk へのショートカット" ftpcommand="RETR" src_ip=10.103.6.100 dst_ip=10.103.6.66 protocol="TCP" src_port=2458 dst_port=21 dstdomain="myftp.cpm" sent_bytes=162 recv_bytes= 45 message="サーバー ftp.myftp からサイズ 550k のファイル resume.doc の FTP ダウンロード。ファイルがウイルスコードウイルスに感染しているため、.com を完了できませんでした」

**

今、私はキーと値のペアに基づいて上記のデータを分割したい..そして、キーに基づいて各値にインデックスを付けたい..変更を構成ファイルに含める必要がある.. work.しかし、構造全体にインデックスを付けたい..誰でもこれについて私を助けてもらえますか??? ありがとう..

solr solr-cell

2012-06-26T12:33:29.373

0 投票する

2 に答える

1973 参照

solr - 独自のパラメーターを追加してファイルを solr にアップロードする

たとえば solr にファイル (いくつかの ms word ドキュメント) をアップロードしたいのですが、アップロードした人の userId やタグの数など、このアップロードに独自のフィールドを追加したいと思います。ファイルのコンテンツは解析および検索可能である必要があり、exta パラメータはフィールドとして追加する必要があります。そのため、schema.xml に次の定義を追加しました。

私の solrconfig.xml の関連部分は次のようになります。

ただし、このコマンドでどのような組み合わせを試しても:

また

documentId の必須フィールドが欠落し続けています

よろしくロナルド

solr solr-cell

2012-08-06T12:55:05.067

0 投票する

0 に答える

176 参照

solr - SolrCell を使用して日付メタデータを取得する

Solr 3.6 を使用して、さまざまな種類のドキュメントのインデックスを作成しています。すべてのドキュメントに共通の情報を定義するフィールドがいくつかあります。そのうちの 1 つは「日付」です (理想的には最終更新日で、ドキュメントがどれだけ新しいかを示すものです)。

.docx や .pdf などのリッチテキストドキュメントのインデックスを作成しようとすると、問題が発生します。ExtractingRequestHandler から取得したメタデータを使用して日付フィールドに入力したいのですが、必要な日付情報が格納されるフィールドの名前がファイルごとに異なります。必要なフィールドは「日付」である場合もあれば、「last_modified」または「last_save_date」である場合もあります。ハンドラーで日付を提供するために「last_modified」を使用しようとしていました：

..しかし、これにより、日付が多値 ('date' メタデータがあったため) または未定義 ('last_modified' が存在しなかったため) であるという問題が発生しました。これらのフィールドの少なくとも 1 つからデータを抽出するために、条件付きの copyFields を使用することを検討しましたが、これは複雑に思え (更新ハンドラーを拡張するなど)、この日付情報を含む可能性のあるすべてのフィールドの名前を知っている必要があります。

処理するすべてのリッチテキストドキュメントから確実に日付を抽出する方法はありますか?

solr metadata apache-tika solr-cell

2012-09-27T20:46:59.767

問題タブ [solr-cell]

Reference