問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - Solr ExtractingRequestHandlerがpdfドキュメントに空のコンテンツを与える
ドキュメントのコンテンツを取得してインデックスを作成するために、Solr で ExtractingRequestHandler を使用しています。すべての Microsoft ドキュメントで正常に機能しますが、PDF の場合、抽出されるコンテンツは空です。また、curl で extractOnly=true を試してみましたが、これも空の本文だけを返します。
同じドキュメントでTIKAを個別に使用しましたが、コンテンツをうまく抽出できます。違いは、独立して行う場合、Solr で使用される SolrContentHandler の代わりに、Tika に付属の BodyContentHander を使用していることです。誰もこれを見たことがありますか?
私は、Tika を使用して Solr の外部にコンテンツを抽出するよりも、Solr に処理させたいと思っています。
full-text-search - Lucene を使用した Symfony での PDF ファイルのインデックス作成
私は Symfony 開発者で、Web サーバーは Linux です。私はすでに sfLucene プラグインを使用しています。
Linux PHP サーバーで検索用に PDF ファイルをインデックス化する最も簡単な方法は何ですか?
- XPDF 、このようにインストール
- SOLR sfLucene プラグイン ブランチ経由のApache Tika
- 第三の選択肢?
ありがとう!
solr - SOLRでドキュメントにインデックスを付けるにはどうすればよいですか?
Ubuntu10.04(apt-get solr-tomcatを介してインストール)でSolr 1.4を実行していますが、正常に動作しているようです。ただし、ドキュメントのインデックスを作成する方法に関する一貫した情報を見つけるのに苦労しています。私はSOLRを初めて使用するので、我慢してください。マウントされたWindows共有であるフォルダー(/ mnt / folder)があります。このフォルダーには、インデックスを作成したいWordファイルとPDFファイルが含まれています。SOLRでフォルダー全体のインデックスを作成する最も簡単な方法は何ですか?
SOLRのドキュメントはかなり貧弱で、それを使って物事を成し遂げるためのまともなチュートリアルを見つけることは不可能なので、どんな助けも大歓迎です!
S
java - ソル; これは何を意味するのでしょうか?
solr の下のサンプル ディレクトリにある README.txt ファイルの最後に、次の行があります。
注: この Solr サンプル サーバーは、solrconfig.xml 内のステートメントを使用して、サーバー ディレクトリの外部にある SolrCell jar を参照します。このサンプル サーバーのコピーを作成し、ExtractingRequestHandler (SolrCell) を使用する場合は、必要な jar を solr/lib にコピーするか、solrconfig.xml 内の jar へのパスを更新する必要があります。
これは何を意味するのでしょうか?
solr をサーバーにアップロードする前に、何らかの調整を行う必要がありますか?
また、ご存知の場合は、Solr-nightly:s と通常の solr の違いは何ですか? チュートリアルには「solr-nightly.zip」と記載されていますが、ダウンロードセクションでは見つかりません。
solr - Solr の TikaEntityProcessor が機能しない
1 つの列がインデックスを作成したい PDF ドキュメントのファイル名であるデータベースを Solr にインデックスを作成させようとしています。私の構成は次のようになります。
トランクからSolrを使用しています(先週の時点で)。インポート プロセスはエラーなしで完了し、データベースから列を取得しますが、PDF ファイルのコンテンツは取得しません。PDF ファイルにアクセスしようとしているのは間違いありません。間違ったパス名を指定すると、問題が発生します。ただし、約 40 ミリ秒で完了するため、PDF のインデックス作成を試みているようには見えませんが、 を介して PDF をインポートすると、ExtractingRequestHandler
インデックス作成に約 11 秒かかります。
example-DIH で tika の例も試しましたが、それも何もインデックス化されていないようです。私は何か間違ったことをしていますか、それともこれはまだ機能していませんか?
OSX 10.6.3 で Java 1.6.0_20 を実行しています。
(私はすでにこれを solr-user メーリング リストに投稿しましたが、回答が得られなかったことに注意してください。)
search - バイナリ/構造化ドキュメントをSOLRに送信する方法は?
ドキュメントのテキストを取り込むためにSOLR のExtractingRequestHandlerを使用しています。
ドキュメントの例はすべて、次のように curl を使用してドキュメントをストリーミングします。
これで問題なく動作しますが、次の注意事項があります。
「curl」またはその他のコマンド ライン ツールを使用してドキュメントを Solr に投稿することは、テストには適していますが、最高のパフォーマンスを得るために推奨される更新方法ではありません。
ドキュメントの SOLR への送信に関するセクションは TODO です。代替方法にはどのようなものがありますか? また、どのように優れていますか?
solr - SOLR Tika: ファイルのテキストを既存のレコードに追加 (ExtractingRequestHandler)
「名前」、「タイトル」、および「説明」フィールドを使用して、SOLR の投稿にインデックスを付けています。後で Tika / ExtractingRequestHandler を使用してファイル (Word ドキュメントや PDF など) を追加できるようにしたいと考えています。
次のようにドキュメントを追加できることを知っています:(または他のインターフェースを介して)
curl ' http://localhost:8983/solr/update/extract?literal.id= post1 &commit=true' -F "myfile=@tutorial.html"
しかし、これは正しい投稿 (上記の post1) を置き換えます。レコードにのみ追加するために渡すことができるパラメーターはありますか?
apache - apache tikaを使用してgzipファイルからxmlデータを抽出しますか?
Apache tika [AM NEW TO TIKA] を使用して gz ファイルから xml(sitemap)data を抽出する必要があるプロジェクトに取り組んでいます。ファイル名は sitemap01.xml.gz のようなものです 通常のテキストファイルや html からデータを抽出することはできますが、gz から xml を抽出し、xml からメタとデータを抽出する方法がわかりません... 過去に Google で検索しました二日。
xml からデータを抽出するには、tika で delegateParser を使用する必要がありますか? いくつかのサンプルまたは記事に私を案内してください....
これが私の試みです
pdf - PDF ドキュメントのインデックス作成
PDFドキュメントをインデックス化する最良の方法は何ですか? PDF ドキュメントを txt に変換してインデックスを作成する必要がありますか、それとも PDF ファイルのインデックスを作成するためのより良い方法がありますか?
solr - Apache Solr 1.4.1 で Apache Tika を構成する方法
多数の PDF ドキュメントにインデックスを付けたいと考えています。
Apache Tika を使用して実行できることを示すリファレンスを見つけましたが、残念ながら、Solr 1.4.1 で Apache Tika を構成できることを説明するリファレンスを見つけることができません。
構成したら、構成済みですが、curl を使用せずにドキュメントを Solr に直接送信するにはどうすればよいですか?
インデックス作成にsolrnetを使用しています。