問題タブ [solr-cell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1403 参照

ruby-on-rails - 最新バージョンのSunspotgemをSolrCellで使用するにはどうすればよいですか?

私は(無駄に)SolrCellで動作するSunspotgemの最新バージョン(現在は2.0.0.pre.111215、Solr 3.5を組み込んでいます)を入手しようとしています。

現在、古いバージョンのSunspotを、次のプラグインによって提供されるSolr Cellと組み合わせて使用​​しています-https ://github.com/chebyte/sunspot_cell

この構成のGemfileは次のとおりです。

残念ながら、Solr / Solrセルのこの古い組み合わせは、多くの新しいPDFファイルでは機能しません。Apacheが推奨する解決策は、両方の最新バージョンにアップグレードすることです。

SunspotSolrCellのボルトオンはあまりサポートされていないようです。最近更新されたバージョンがプラグインからGemに切り替えられましたが、それでも最新バージョンのSunspotGemで動作させることができません。https://github.com/zheileman/sunspot_cell

要素をうまく一緒に再生するための正しいGemfile構成を知っている人はいますか?私が持っている最も近いものはこれです。

rakeタスクを実行すると、次のエラーが発生します。

sunspot_cell gemを一時的にコメントアウトすると、Rakeタスクを実行できますが、実際の検索は失敗します。

sunspot_solrにバンドルされているファイルの代わりに、このgemのSolr jarファイルを手動で使用しようとしましたが、成功しませんでした。

0 投票する
1 に答える
722 参照

pdf - Solr Cell でインデックス付き PDF を検索しても結果がありません

私はしばらくSolrを使用してきましたが、最近solr-cellコンポーネントを試し、いくつかのPDFにインデックスを付けていますが、このスレッドで提示されたのとまったく同じ問題があります。

管理コンソールで *:* を検索すると、PDF が一覧表示されます。ただし、PDF 内のコンテンツを検索しても結果が得られません。

そこにある回答のコマンドをすでに試しましたが、運がありませんでした。まだ同じ問題があり、さまざまなSolrバージョン(3.5 btwを使用しています)、さまざまなPDFで試しました。スキーマのフィールドを変更しました.xml で、solrconfig.xml の RequestHandlers を変更しましたが、何も機能していないようです。どんな助けでも大歓迎です。

0 投票する
1 に答える
2244 参照

solr - solrjを使用してPDFファイルにフィールドを追加する

私はsolrの初心者です。ContentStreamUpdateRequestを使用してsolrでインデックスを作成しているときに、フィールド/メタデータをpdfファイルに追加する際に問題が発生します。フィールドを追加するにはリテラルパラメーターを使用する必要があるため、次のことを試しました。

pdfファイルはsolrで索引付けされますが、問題は、すべてのフィールドがリテラルを使用して作成されているわけではないことです。次のフィールドが作成されています。

  1. id
  2. 名前
  3. カテゴリ

    url_filepathlocationなどのフィールドは作成されませんが、 *場合によっては*フィールドCategoryは作成されません。
    私が経験したことでは、メタデータを作成するためにリテラルパラメータを使用して任意のランダムフィールドを作成できます。idname、さらにはblah_sなどのフィールドが常に作成されるのはなぜですか。ただし、上記のようなランダムフィールドを試すと、solr作成しませんか?
    これらの確率場を他の場所でも宣言する必要がありますか?
    どんな助けでも大歓迎です。
    更新:メソッドup.setParam( "literal.myField")を呼び出して、schema.xmlを変更して新しいフィールドを作成しませんか?

0 投票する
1 に答える
4803 参照

solr - ApacheSolr-PDFファイルのインデックス作成

こんにちは私はバイナリディストリビューションでこれをやってみただけでなく、自分でソースコードをコンパイルしました。これをApacheTomcatでも実行してみました。しかし、インデックス作成の目的でpdfファイルを使用すると、常に次のエラーが発生します。Solrのサンプルプロジェクトで提供されているpost.jarを使用しています。

また、Win 7(JDK 1.7)とCentos(1.6)の両方でこれを実行してみました。

インターネットを検索したところ、バグトラッカーでJetty jarファイルのパッチが適用されたバージョンが見つかりましたが、それらを置き換えた後でも問題は解決しません。

私はここで立ち往生しているので、私はそれ以上の仕事を進めることができないので、本当に助けていただければ幸いです。

ありがとう

0 投票する
0 に答える
1533 参照

solr - #500 抽出で PDF を Solr インデックスに追加しようとすると内部サーバー エラーが発生する

私は初めての Solr ユーザーで、v3.5 を Windows 7 システムの Tomcat 7 で使用しています。example-docs の XML の例を問題なく実行しました。ただし、HTML および PDF ファイルで抽出を使用する必要があります。インデックス作成のために PDF ファイルを投稿しようとすると、次のようになります。

私が使用したコマンドは次のとおりです。

私のsolrホームディレクトリはC:\ solrで、これまでに次のことを行いました:

  • solr ダウンロード パッケージの example/solr フォルダーの内容をコピーしました
  • solr ダウンロード パッケージの contrib/extraction/lib フォルダーを C:\solr\lib にコピーしました
  • solr ダウンロード パッケージの dist/apache-solr-cell-3.5.0.jar を C:\solr\dist\apache-solr-cell-3.5.0.jar にコピーしました。
  • C:\solr\conf\solrconfig.xml の適切な「lib」タグを<lib dir="lib" />およびに変更しました。<lib dir="dist/" regex="apache-solr-cell-\d.*\.jar" />

PDF および HTML ファイルでこれを機能させるには、他に何をする必要がありますか? 複数のチュートリアルと「Getting Started」ガイドを読みましたが、何が問題なのか理解できません。私はTomcatの初心者でもあり、私が知る限り、これはTomcatのログに表示されていません...だから私はほとんど立ち往生しています. 繰り返しますが、XML の例に問題はありません。したがって、Tomcat 自体は正常に動作しており、solr を認識しています (solr 管理ページが表示されます)。どんな助けでも大歓迎です。

0 投票する
1 に答える
245 参照

solr - データベースとdocファイルから同時にlucene/solrインポートレコードを使用して関連付けを行う方法

バイナリ ドキュメント情報 (ファイル メタ) をデータベースに格納し、バイナリ ドキュメントをファイル システムに格納します。データベース内のファイル情報に関連付けられたファイル名を使用します。

これらすべてのデータ (バイナリ ドキュメントのファイル メタおよびフルテキスト コンテンツ) を lucene solr にインポートしたいと考えています。

lucene/solr は、「Data Import Handler (DIH) を使用してデータベースからレコードをインポートする」を提供します。および「Word や PDF などのバイナリ ドキュメントに Solr セル (ExtractingRequestHandler) を使用してインデックスを付けます。」 を使用して、それらのデータを個別にインポートします。

インポート後にsolr / luceneを使用してバイナリドキュメントとファイルメタを関連付けるにはどうすればよいですか

ありがとうございました

0 投票する
4 に答える
5500 参照

solr - SolrCell 経由の Tika からのメタデータを含まないテキスト コンテンツ

Solr 3.6 と ExtractionRequestHandler (別名 Tika) を使用して、(PDF の) テキスト コンテンツだけをフィールドからメタデータを除いたフィールドにマップすることは可能ですか? 残念ながら、Tika によって作成された「コンテンツ」フィールドには、ドキュメントのテキスト コンテンツで変更されたすべてのメタデータが含まれています。

コンテンツのスニペット ハイライトを提供したいのですが、コンテンツ フィールド内のサブジェクト メタデータがハイライト結果をゆがめています。

更新: Solr によってインデックス付けされた Tika 出力のスクリーンショット。強調表示された部分は、テキストのブロックとして PDF コンテンツの先頭に追加されるメタデータのブロックです。

tika出力のsolrスクリーンショット

solrconfig.xml の ExtractingRequestHandler:

Schema.xml フィールド。「コンテンツ」は、Tika のコンテンツ出力を直接受け取ることに注意してください。「ページ」および「コレクション」フィールドは、ドキュメントがハンドラーにポストされるときにリテラル値で設定されます。

0 投票する
2 に答える
269 参照

solr - solrの空白で区切られたテキストファイルのすべての単語にインデックスを付けますか?

アプリケーションにsolr 3.6を実装しています.テキストファイルに以下のデータがあるため..

**

date=2011-07-08 time=10:55:06 timezone="IST" device_name="CR1000i" device_id=C010600504-TYGJD3 deployment_mode="Route" log_id=031006209001 log_type="ウイルス対策" log_component="FTP" log_subtype= "Clean" status="Denied" priority=Critical fw_rule_id="" user_name="hemant" virus="codevirus" FTP_URL="ftp.myftp.com" FTP_direction="download" filename="hemantresume.doc" file_size="550k " file_path="deepti/virus.lnk へのショートカット" ftpcommand="RETR" src_ip=10.103.6.100 dst_ip=10.103.6.66 protocol="TCP" src_port=2458 dst_port=21 dstdomain="myftp.cpm" sent_bytes=162 recv_bytes= 45 message="サーバー ftp.myftp からサイズ 550k のファイル resume.doc の FTP ダウンロード。ファイルがウイルス コードウイルスに感染しているため、.com を完了できませんでした」

**

今、私はキーと値のペアに基づいて上記のデータを分割したい..そして、キーに基づいて各値にインデックスを付けたい..変更を構成ファイルに含める必要がある.. work.しかし、構造全体にインデックスを付けたい..誰でもこれについて私を助けてもらえますか??? ありがとう..

0 投票する
2 に答える
1973 参照

solr - 独自のパラメーターを追加してファイルを solr にアップロードする

たとえば solr にファイル (いくつかの ms word ドキュメント) をアップロードしたいのですが、アップロードした人の userId やタグの数など、このアップロードに独自のフィールドを追加したいと思います。ファイルのコンテンツは解析および検索可能である必要があり、exta パラメータはフィールドとして追加する必要があります。そのため、schema.xml に次の定義を追加しました。

私の solrconfig.xml の関連部分は次のようになります。

ただし、このコマンドでどのような組み合わせを試しても:

また

documentId の必須フィールドが欠落し続けています

よろしくロナルド

0 投票する
0 に答える
176 参照

solr - SolrCell を使用して日付メタデータを取得する

Solr 3.6 を使用して、さまざまな種類のドキュメントのインデックスを作成しています。すべてのドキュメントに共通の情報を定義するフィールドがいくつかあります。そのうちの 1 つは「日付」です (理想的には最終更新日で、ドキュメントがどれだけ新しいかを示すものです)。

.docx や .pdf などのリッチ テキスト ドキュメントのインデックスを作成しようとすると、問題が発生します。ExtractingRequestHandler から取得したメタデータを使用して日付フィールドに入力したいのですが、必要な日付情報が格納されるフィールドの名前がファイルごとに異なります。必要なフィールドは「日付」である場合もあれば、「last_modified」または「last_save_date」である場合もあります。ハンドラーで日付を提供するために「last_modified」を使用しようとしていました:

..しかし、これにより、日付が多値 ('date' メタデータがあったため) または未定義 ('last_modified' が存在しなかったため) であるという問題が発生しました。これらのフィールドの少なくとも 1 つからデータを抽出するために、条件付きの copyFields を使用することを検討しましたが、これは複雑に思え (更新ハンドラーを拡張するなど)、この日付情報を含む可能性のあるすべてのフィールドの名前を知っている必要があります。

処理するすべてのリッチ テキスト ドキュメントから確実に日付を抽出する方法はありますか?