問題タブ [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2236 参照

apache-poi - TikaparseToString呼び出しの問題

Excelファイルからデータを抽出するためにPOIを使用しています。(Excelシートの5番目の列には、ファイルシステムに存在するファイルの名前が含まれています)テーブルの行をループし(セルのコンテンツをPOIで抽出します)、行ごとにTikaのインスタンスを作成し、 Tika "parseToString(file)"の5番目の列、ファイルがOfficeドキュメント(excel、ppt、word)の場合、次のエラーが発生します。

この問題は、POIでのネストされた使用の結果として発生すると思います。一度Excelテーブルに入れてから、もう一度Tika解析呼び出しに入れます。

合理的に聞こえますか?この問題をどのように処理できますか?

ありがとう:-)Reuth

0 投票する
1 に答える
2377 参照

java - Apache Tika を使用してメタデータを抽出し、HashMap に格納する

Apache tika を使用してメタデータを抽出し、HashMap に入れようとしています。しかし、私のコードは、そのキーの値ではなくキーのみを取得します。キーワードを(キーとして)保存するのと同じ方法ですが、その値は保存しません..
そして、mdに何が含まれているかを確認しようとすると、次のように表示されます:-


どんな助けでも大歓迎です..

0 投票する
1 に答える
2030 参照

java - バイナリデータを解析しようとしています...そして、私の場合はほとんどpdfです

このコードの何が問題なのですか...私はpdfファイルを解析してそこからテキストを抽出しようとしています...しかし、一部のpdfではテキストを抽出できます...そして、いくつかの場合はエラーがスローされます

また、一部のpdfのmd変数でメタデータ値を取得できませんでした...しかし、一部の場合はそれを取得します...

これは私のコードです..!! ByteArray に問題がありますか??

0 投票する
1 に答える
4619 参照

java - バイナリファイルの解析中にエラーが発生しました...(主にPDF)

バイナリファイルにByteArrayInputStreamを使用してApacheTikaを使用してPDFファイルを解析しようとしています...一部のPDFファイルでエラーが発生し始め、一部のPDFファイルは非常にうまく解析されています。以前はTikaを使用して同じPDFファイルを解析できましたが、 ByteArrayInputStreamを使用しようとすると、エラーが発生し始めました。ByteArrayに問題があると思います。これがエラーです。

そしてこれは私のコードです...




私が何をしているのか、どんな提案も... !!

更新: -pdfbox 1.6.0バージョンにアップグレードした後、一部のpdfでこのエラーが発生し始めました...

そしていくつかのPDFではこのエラー...

0 投票する
1 に答える
2766 参照

java - バイナリ ファイルの解析中にエラーが発生しました

PDFBOXバージョンを1.6.0にアップグレードした後、Apache Tikaを使用してpdfファイルを解析しようとしています...そして、いくつかのpdfファイルでこのエラーが発生し始めました。助言がありますか?


そして、これが私のコードです。



0 投票する
1 に答える
1114 参照

apache - ApacheTika0.9の依存関係をPDFBOX1.4.0からPDFBOX1.6.0にオーバーライドしようとしています

TikaのPDFBOX1.6.0への依存関係をオーバーライドするために、tikaの依存関係のすぐ上ではなく、この下の依存関係を追加しようとしましたが、機能しません。

Tika Parserは、PdfBoxバージョン1.4.0に依存しています。そして、ApacheTikaのこの依存関係をPdfBoxバージョン1.6.0に変更したかったのです。Pom.xmlファイルでこれを行うにはどうすればよいですか。これは私のpom.xmlファイルです。任意の提案をいただければ幸いです。

0 投票する
2 に答える
646 参照

solr - Solr:ファイルエンティティプロセッサとデルタインポート

solr 3.3を使用していますが、ファイルエンティティプロセッサとtikaエンティティプロセッサでデルタインポートを使用したいと思います。完全インポートは正常に機能しますが、デルタインポートパラメータは新しいドキュメントをインポートしません。

ありがとう

0 投票する
2 に答える
1388 参照

ruby-on-rails - Railsアプリからの添付ファイルの検索(Word、PDF、Excelなど)

Stack Overflowへの最初の投稿なので、優しくしてください。クライアント用に新しいRubyonRails(3.1)プロジェクトを開始しようとしています。彼らの要件の1つは、PDF、Word、Excel、およびHTMLが混在する約2,000のドキュメントにインデックスを付ける検索エンジンがあることです。

私はthinking-sphinxまたはTexticle(https://www.ruby-toolbox.com/categories/rails_search.htmlで最も人気があります)のいずれかを使用することを望んでいましたが、私が理解しているように:

  • TexticleにはPostgreSQLが必要です。私はMySQLを使用しています。
  • thinking-sphinxはファイルシステム上のファイルにインデックスを付けません。
  • 添付ファイルをデータベースに保存したとしても、thinking-sphinxはプレーンテキストを必要とするため、機能しません(http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ffによる)

したがって、2つのオプションが残されています。

  1. 別の検索ツールを選択してください
  2. 添付ファイルのプレーンテキストバージョンをデータベースに抽出して、thinking-sphinxを読んでみてください

どのアプローチをお勧めしますか?

別の検索ツールの場合、どれですか?私の要件は非常に基本的なものなので、セットアップが非常に簡単で、ドキュメント、例、チュートリアルがたくさんあるものが本当に欲しいです!

抽出する場合、PDF、Word、Excel、HTMLなどの一般的なファイルタイプの抽出機能をお勧めしますか?

みんな、ありがとう。本当にあなたの助けに感謝します。

0 投票する
1 に答える
1193 参照

solr - solr の抽出機能を使用しているときに動的フィールドにデータを追加するにはどうすればよいですか?

Solr サーバーとのインターフェイスとして、solr-php-client (http://code.google.com/p/solr-php-client/) という PHP ライブラリを使用しています。ドキュメントからデータを抽出して保存し、検索することはできますが、インデックス作成用のパラメーターに独自のデータを追加することはできないようです。

「テキスト」をクエリして結果を取得できます。

しかし、動的フィールド、つまり「SS_Stage_ms」のいずれにもクエリを実行できません。

該当するスキーマ定義は次のとおりです。

0 投票する
1 に答える
5393 参照

drupal - ExtractingRequestHandler を Solr で動作させる

Drupal Web サイトで Word および PDF ドキュメントのインデックスを作成できるように、Solr を Tika と連携させようとしています。

Wikiページとこのページを見たところ、solrconfig.xmlにrequestHandlerを追加することが示されています。

私はそれを行いましたが、Solr は例外をスローします。

org.apache.solr.common.SolrException: クラス 'org.apache.solr.handler.extraction.ExtractingRequestHandler' のロード中にエラーが発生しました

私はいくつかの検索を行い、他の人がこの問題を抱えていることを確認しましたが、簡単な修正は見られません. Windows Server 2003でSolr 3.4.0を使用しています。これを解決する方法についてのアイデアはありますか?

補足として、検索にSolrを使用するDrupalを持っていますが、それは機能しています。しかし、私がうまくいかないのは、Solr が PDF および Word ドキュメントにインデックスを付けることです。これはほとんどの Web サイトで共通のニーズであることは確かですが、私はこれに何日も費やしてきましたが、これほど文書化されておらず、これを理解するのが難しいとは信じられません。