“solr-cell”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1193 参照

solr - solr の抽出機能を使用しているときに動的フィールドにデータを追加するにはどうすればよいですか?

Solr サーバーとのインターフェイスとして、solr-php-client (http://code.google.com/p/solr-php-client/) という PHP ライブラリを使用しています。ドキュメントからデータを抽出して保存し、検索することはできますが、インデックス作成用のパラメーターに独自のデータを追加することはできないようです。

「テキスト」をクエリして結果を取得できます。

しかし、動的フィールド、つまり「SS_Stage_ms」のいずれにもクエリを実行できません。

該当するスキーマ定義は次のとおりです。

2011-10-13T15:06:19.657

0 投票する

1 に答える

5393 参照

drupal - ExtractingRequestHandler を Solr で動作させる

Drupal Web サイトで Word および PDF ドキュメントのインデックスを作成できるように、Solr を Tika と連携させようとしています。

Wikiページとこのページを見たところ、solrconfig.xmlにrequestHandlerを追加することが示されています。

私はそれを行いましたが、Solr は例外をスローします。

org.apache.solr.common.SolrException: クラス 'org.apache.solr.handler.extraction.ExtractingRequestHandler' のロード中にエラーが発生しました

私はいくつかの検索を行い、他の人がこの問題を抱えていることを確認しましたが、簡単な修正は見られません. Windows Server 2003でSolr 3.4.0を使用しています。これを解決する方法についてのアイデアはありますか?

補足として、検索にSolrを使用するDrupalを持っていますが、それは機能しています。しかし、私がうまくいかないのは、Solr が PDF および Word ドキュメントにインデックスを付けることです。これはほとんどの Web サイトで共通のニーズであることは確かですが、私はこれに何日も費やしてきましたが、これほど文書化されておらず、これを理解するのが難しいとは信じられません。

drupal solr apache-tika solr-cell

2011-10-27T15:56:52.317

0 投票する

1 に答える

469 参照

ruby-on-rails - rsolrでファイルをアップロードするには?

Solr サーバーでインデックスを作成する必要があるファイルがあります。ファイルをアップロードするにはどうすればよいですか? curl でそれを行う方法を知っています: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

( http://wiki.apache.org/solr/ExtractingRequestHandlerから) しかし、それを rsolr rubygem に変換する方法がわかりません。

前もって感謝します。

ruby-on-rails ruby apache-tika solr-cell rsolr

2011-11-07T14:15:40.037

0 投票する

1 に答える

1596 参照

solr - Solr ExtractingRequestHandler pdfテキスト抽出

Solr の PDF テキスト抽出に問題があります。Solr は Apache Tika を使用して PDF ファイルのテキストを抽出し、tika はそのために PDFBox を使用します。PDF ファイルを Solr に送信すると、テキストは正常に抽出されますが、テキストが完全にめちゃくちゃになります。そんな感じ

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

しかし、次のコマンドを使用してコマンドラインで PDFBox を使用して同じ PDF ファイルを直接抽出すると、良い結果が得られます。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

どの Tika バージョンまたはそれ以上の PDFBox バージョンが solr で使用されているかわかりません。solr warファイルでそのライブラリを見つけることさえできません... libディレクトリ内のすべてのライブラリは次のとおりです。

誰かがそれに対する解決策を知っていれば、本当にうれしいです。

solr pdfbox apache-tika solr-cell

2011-11-07T20:28:06.243

0 投票する

0 に答える

872 参照

solr - ファセット用に SOLR でフィールドをマッピングする

SOLR 3.4 を使用してリッチテキストドキュメントのインデックスを作成していますが、希望どおりExtractingRequestHandlerに動作させるのに問題があります。

後でファセット検索に使用するフィールドとして作成日を保存したいと考えており、で次のように定義していますschema.xml。

私はこのように索引付けします：

動的フィールドを取得しますattr_creation_date(他のルールが確認します) が、creation_date. 私もcopyField次のように使用しようとして失敗しました：

さらに別の試みはこれをに入れていましsolrconfig.xmlたが、うまくいきませんでした:

ここで基本的な何かが欠けていると確信しています。どんな助けでも大歓迎です！

ExtractingRequestHandlerの設定solrconfig.xml:

私のschema.xmlファイル (多くのデフォルトのもの): https://gist.github.com/1358002

solr lucene full-text-search apache-tika solr-cell

2011-11-11T12:07:57.697

0 投票する

1 に答える

729 参照

solr - リッチドキュメントをインポートするときの SOLR の schema.xml のベストプラクティスはありますか?

私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。

を使用する場合、ベストプラクティスschema.xmlおよび/またはsolrconfig.xmlSOLR で使用する方法はありExtractingRequestHandlerますか?

私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。

ベストプラクティスのようなものが存在しない場合、schema.xmlおよび/またはsolrconfig.xml、できれば既存のオープンソースプロジェクトや優れたブログ投稿からの良い例にも興味があります。

どんなポインタでも大歓迎です！

solr lucene full-text-search apache-tika solr-cell

2011-12-05T23:31:21.150

0 投票する

3 に答える

2774 参照

solr - NoClassDefFoundError PDF 抽出での MimeTypeException

PDF ファイルで update/extract を使用しようとすると例外が発生します

私のセットアップは次のとおりです。- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

solr/admin を参照できます OK

すべての contrib/extract および apache-solr-cell3.5.0.jar ライブラリを tomcat フォルダー webapps/solr/WEB-INF/lib に配置しました。

次を使用して抽出を呼び出しています：-

エラーは

ポインタをいただければ幸いです - このエラーが他の場所で発生するように見えるのは、Nutch とキャッシュされた結果の場合のみです。

クエリ文字列と *.doc ファイルで MIME タイプを送信しようとしましたが、同じエラーが発生しました。

solr apache-tika solr-cell

2011-12-09T11:39:22.500

0 投票する

2 に答える

1247 参照

solr - ExtractingRequestHandler - 多値リテラルフィールドをどのようにポストしますか?

リテラルの多値フィールドを PDF 抽出とともに投稿しようとしています。フィールド値の 1 つだけがインデックスに追加されているようです。これは別の方法で渡す必要がありますか?

現在、(POST 値を介して) 同等のものを送信しています:

solr apache-tika solr-cell

2011-12-15T17:07:56.090

0 投票する

2 に答える

1428 参照

solr - TikaSolrメタデータマッピングはドキュメントタイトルを無視します

solr用に次の設定ファイルがあります。

これが私のスキーマです：

自分を設定したいtitle。しかし、Tikaは独自に設定し続けますtitle（そのため、一時的に設定します）。これは、やmultiValued="true"のようなものを手動でマップする必要があるため、奇妙に感じます。stream_sizecontent_type

この問題に対してどのような解決策がありますか？

title次のように、Tikaに割り当てたものを上書きしてもらいたいです。

私は3つのドキュメントを持っていますが、そのうちの1つは、Tikaがを抽出しませんtitle。この場合、私は自分のタイトルを渡して設定しますliteral.title。Tikaがを抽出するときは、title渡したものをオーバーライドしますliteral.title。これは可能ですか？

solr metadata apache-tika solr-cell

2011-12-21T17:58:16.797

0 投票する

0 に答える

326 参照

java - Solr ドキュメントの段落を取得する

私は数日間 solr を使用してきましたが、ドキュメントを段落に分割してから、すべての段落を検索する必要があります。私は多くのことを試しましたが、solr は段落を正しくキャプチャしたくありません。何もキャプチャしないか、すべてを 1 つの大きなテキストとしてキャプチャします。私は試した：

どんな組み合わせを試しても、常に間違った結果になります。段落を取得して使いやすくする方法を知っている人はいますか? 基本的なクエリベースの要約を実行し、クエリに関する情報が最も多い段落を取得するプラグインを作成していますが、段落を取得する方法がわかりません。

ありがとう！

java solr solr-cell

2011-12-31T13:40:06.700

問題タブ [solr-cell]

Reference