問題タブ [solr-cell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - Solr-Solr Cellを介してインデックス付けされたインデックス付きバイナリファイルにメタデータを追加するにはどうすればよいですか?
ユーザーがSolrを使用してファイルを検索して検索を強化できるようにするPHPアプリを作成しています。これは主に、アプリでWordドキュメントとPDFのコンテンツ検索が必要なためです。このアプリは、MySqlデータベースを使用してファイルを追跡します。
すべてのファイル(おそらく約20,000)に最初にインデックスを付ける最良の方法は、特定のディレクトリ内のすべてのファイルをループして各ファイルをSolrインデックスに追加し、そのレコードを作成するPHPスクリプトを作成することです。データベース。
問題は、ファイル自体に、インデックスを作成する必要のあるすべてのデータが含まれていないことです。Solr Cellを使用してファイル名、コンテンツ、作成者などのインデックスを作成したら、アプリのユーザーがタグやカテゴリなどのメタデータを追加できるようにする必要があります。
ユーザーがこのデータをMySqlデータベースに追加した場合、すでにインデックスが作成されているデータ(コンテンツなど)を上書きせずに、追加のデータでSolrを更新できないことを理解しています。
だから私の質問は、ファイルがSolrによってインデックス付けされたら、Solr Cellエクストラクタによってファイル自体から取得できなかったメタデータをインデックスに追加するにはどうすればよいですか?
apache - Apache solrを使用してpdfのコンテンツから日付文字列を取得する方法
こんにちは、Apache solr は初めてです。私は次のような日付情報を含むPDFを持っています- bla bla bla 2012-11-23 11:11:12 bla bla ...-コンテンツからすべての日付を取得したい。
いくつかのドキュメント (http://wiki.apache.org/solr/ExtractingRequestHandler) を読み、date.formats を /update/extract に追加しました
以下のようにpdfを追加しています
curl "http://localhost:8983/solr/update/extract?literal.id=sql.txt&uprefix=attr_&fmap.content=attr_content&commit=true"&stream.file="/home/example/example.pdf"
日付についての注意事項はありますか?とコンテンツ?
ありがとう
solr - Solr は、結果として供給された HTML ドキュメントのフォーマットを保持できますか?
Solr が提供する結果で HTML ドキュメントの元のフォーマットを維持するにはどうすればよいですか?
何百万ものドキュメントがあり、すべてが同様のフォーマットを持っていない会社の Web サイトの 1 つで検索機能を提供しようとしています。そのため、各ドキュメントを個別にフォーマットするのは困難です。
Solr -cell と tika のサポートが組み込まれている apache サイトで、Solr 4.1 ナイトリー ビルドを使用しています。つまり、それらを個別に構成する必要はありません。
solr-cell または tika はこれらのフォーマットをどこかに保持しますか?
フォーマットが保持されない場合は、solr のresourcenameフィールドを使用して物理ファイルの場所から各ドキュメントをフェッチし、ハイライトやその他の solr 既製機能を適用する必要がありますが、このプロセスは面倒です。
編集:答えでJayendraが提案したように、「HTMLStripCharFilterFactory」を使用する必要がある場合、リクエストハンドラーとして何を使用できますか? その場合、メタデータタグも抽出できますか?
誰でもこれに関して私を案内できますか!
いつも応援ありがとうございます.!!!
pdf - solrでPDFの検索結果のページ番号を取得する
私は、ユーザーがpdfドキュメントを検索してpdf.jsで表示できるWebアプリケーションを構築しています。検索結果を、検索語が見つかった段落の短いスニペットと、右側のページにあるドキュメントを開くためのリンクとともに表示したいと思います。
したがって、必要なのは、すべての検索結果のページ番号と短いテキストスニペットです。
私はSOLR4.1を使用してPDFドキュメントのインデックスを作成しています。索引付け自体は正常に機能しますが、検索結果のページ番号と段落を取得する方法がわかりません。
これは「 Solrを使用したページ番号を使用したPDFのインデックス作成」で見つかりましたが、あまり役に立ちませんでした。
database - Solr 4.0以降でデータベースBLOBとして含まれているリッチフォーマットドキュメントにインデックスを付けるにはどうすればよいですか?
この問題に関連する解決策をいくつか見つけました。説明するように、関連するソリューションは私には機能しません。(私はSolr 4.0を使用しており、Oracle 11gデータベースに格納されているデータにインデックスを付けています。)
Jonck van der Kogelの関連ソリューション(2009年から)については、ここで説明します。彼は、Solrに同梱されているClobTransformerのようなカスタムTransformerの作成について説明しています。これはエレガントな道を進んでいますが、現在Solrと統合されているTikaを使用していません。(彼は外部のPDFBoxとFontBoxを使用しています。)これにより、複数のメンテナンス/アップグレードの依存関係が作成されます。また、PDFに加えてWord文書のインデックスを作成できる必要があります。
Kogelのソリューションは正しい方向に進んでいるようですが、Solrに含まれているTikaクラスをカスタムTransformerで使用する方法はありますか?これにより、KogelのエレガントなデータベースソリューションですべてのTika機能が可能になります。
別の関連するソリューションは、Solrに同梱されているExtractingRequestHandler (ERH)です。ただし、名前が示すように、これはリッチテキストドキュメントのHTTP投稿を処理するなどのリクエストハンドラです。この方法でデータベースからドキュメントを抽出するには、パフォーマンスとセキュリティの問題があります。データベースのBLOBにHTTP経由でアクセスできるようにする必要があります。データベースBLOBからの直接取り込みにERHを使用することについての議論は見つかりませんでした。Solr Cellを使用してデータベースBLOBから直接取り込むことは可能ですか?
別の関連する解決策は、byte []を文字列に変換するためのTransformer(上記のKogelのような)を作成することです(DataImportHandler FAQから)。真のバイナリドキュメントでは、これはジャンクをインデックスにフィードし、Tikaのようにテキスト要素を適切に抽出しません。動作しません。
最後の関連ソリューションは、RichDocumentHandlerによって提供されるUpdateRichDocumentsです。これは非推奨であり、Solrでは使用できなくなりました。このページでは、ExtractingRequestHandler(上記で説明)を参照しています。
正しい解決策は、DataImportHandlerとTikaクラスを使用するカスタマーTransformerを使用することのようです。これはどのように作動しますか?
apache - Solr: 特定の HTML タグを除外するか、インデックス内の特定のタグのみを含める
現在、Solr-Cell を使用して、いくつかの html ページのコンテンツを取得し、インデックスを作成しています。問題は、すべてのページに表示されるヘッダーにメニューがあることです。このメニューとそのすべてのアイテムが検索結果に表示されます。これをインデックスに登録したくありません。
これをどのように達成しますか?
特定の DIV (クラス名または ID) を除外することはできますか?
solr - Solr メタデータ インデックス
私は Solr を初めて使用し、データベースに保存されている URL を介してバイナリ ファイルからメタデータを抽出しています。PDF からの索引付けに使用できるフィールド (column="" として開始されるフィールド) を知りたいです。また、Solr でカスタマイズされたフィールドを作成する方法も知りたいです。それはどのように実装され、ファイルからの特定のメタデータにマップされますか。誰かが私に示すことができるコードスニペットを持っていれば、それは大歓迎です. 前もって感謝します。
solr - ExtractingRequestHandler ("Solr Cell") での最大文字列長の設定 .. setMaxStringLength()
Solr と ExtractingRequestHandler を使用してドキュメントのインデックスを作成していますが、Tika setMaxStringLength() と同等の処理を行う方法がわかりません。
小さなドキュメントのすべてにインデックスを付けているように見えますが、大きなドキュメントのすべてのテキストにはインデックスを付けていないようです。
solrconfig.xml で値を設定することは可能ですか? curl を使用して投稿するときに、値を他のパラメーターと一緒に渡すことはできますか?
solr - solr extractingrequesthandler は org.apache.solr.request.SolrRequestHandler ではありません
post.jar を使用して、pdf ファイルを含むフォルダーにインデックスを付けようとしています。requesthandler を追加しましたが、起動時にエラーが発生します。
バージョンの競合または重複したクラスのロードである可能性があるため、SolrRequestHandler として認識されないようです。ただのアイデア。
私は、iisを搭載したWindows 2008 r2サーバーでsolr 3.4を実行しています。
構成:
ログ: