問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-poi - TikaparseToString呼び出しの問題
Excelファイルからデータを抽出するためにPOIを使用しています。(Excelシートの5番目の列には、ファイルシステムに存在するファイルの名前が含まれています)テーブルの行をループし(セルのコンテンツをPOIで抽出します)、行ごとにTikaのインスタンスを作成し、 Tika "parseToString(file)"の5番目の列、ファイルがOfficeドキュメント(excel、ppt、word)の場合、次のエラーが発生します。
この問題は、POIでのネストされた使用の結果として発生すると思います。一度Excelテーブルに入れてから、もう一度Tika解析呼び出しに入れます。
合理的に聞こえますか?この問題をどのように処理できますか?
ありがとう:-)Reuth
java - Apache Tika を使用してメタデータを抽出し、HashMap に格納する
Apache tika を使用してメタデータを抽出し、HashMap に入れようとしています。しかし、私のコードは、そのキーの値ではなくキーのみを取得します。キーワードを(キーとして)保存するのと同じ方法ですが、その値は保存しません..
そして、mdに何が含まれているかを確認しようとすると、次のように表示されます:-
どんな助けでも大歓迎です..
java - バイナリデータを解析しようとしています...そして、私の場合はほとんどpdfです
このコードの何が問題なのですか...私はpdfファイルを解析してそこからテキストを抽出しようとしています...しかし、一部のpdfではテキストを抽出できます...そして、いくつかの場合はエラーがスローされます
また、一部のpdfのmd変数でメタデータ値を取得できませんでした...しかし、一部の場合はそれを取得します...
これは私のコードです..!! ByteArray に問題がありますか??
java - バイナリファイルの解析中にエラーが発生しました...(主にPDF)
バイナリファイルにByteArrayInputStreamを使用してApacheTikaを使用してPDFファイルを解析しようとしています...一部のPDFファイルでエラーが発生し始め、一部のPDFファイルは非常にうまく解析されています。以前はTikaを使用して同じPDFファイルを解析できましたが、 ByteArrayInputStreamを使用しようとすると、エラーが発生し始めました。ByteArrayに問題があると思います。これがエラーです。
そしてこれは私のコードです...
私が何をしているのか、どんな提案も... !!
更新: -pdfbox 1.6.0バージョンにアップグレードした後、一部のpdfでこのエラーが発生し始めました...
そしていくつかのPDFではこのエラー...
java - バイナリ ファイルの解析中にエラーが発生しました
PDFBOXバージョンを1.6.0にアップグレードした後、Apache Tikaを使用してpdfファイルを解析しようとしています...そして、いくつかのpdfファイルでこのエラーが発生し始めました。助言がありますか?
そして、これが私のコードです。
apache - ApacheTika0.9の依存関係をPDFBOX1.4.0からPDFBOX1.6.0にオーバーライドしようとしています
TikaのPDFBOX1.6.0への依存関係をオーバーライドするために、tikaの依存関係のすぐ上ではなく、この下の依存関係を追加しようとしましたが、機能しません。
Tika Parserは、PdfBoxバージョン1.4.0に依存しています。そして、ApacheTikaのこの依存関係をPdfBoxバージョン1.6.0に変更したかったのです。Pom.xmlファイルでこれを行うにはどうすればよいですか。これは私のpom.xmlファイルです。任意の提案をいただければ幸いです。
solr - Solr:ファイルエンティティプロセッサとデルタインポート
solr 3.3を使用していますが、ファイルエンティティプロセッサとtikaエンティティプロセッサでデルタインポートを使用したいと思います。完全インポートは正常に機能しますが、デルタインポートパラメータは新しいドキュメントをインポートしません。
ありがとう
ruby-on-rails - Railsアプリからの添付ファイルの検索(Word、PDF、Excelなど)
Stack Overflowへの最初の投稿なので、優しくしてください。クライアント用に新しいRubyonRails(3.1)プロジェクトを開始しようとしています。彼らの要件の1つは、PDF、Word、Excel、およびHTMLが混在する約2,000のドキュメントにインデックスを付ける検索エンジンがあることです。
私はthinking-sphinxまたはTexticle(https://www.ruby-toolbox.com/categories/rails_search.htmlで最も人気があります)のいずれかを使用することを望んでいましたが、私が理解しているように:
- TexticleにはPostgreSQLが必要です。私はMySQLを使用しています。
- thinking-sphinxはファイルシステム上のファイルにインデックスを付けません。
- 添付ファイルをデータベースに保存したとしても、thinking-sphinxはプレーンテキストを必要とするため、機能しません(http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ffによる)
したがって、2つのオプションが残されています。
- 別の検索ツールを選択してください
- 添付ファイルのプレーンテキストバージョンをデータベースに抽出して、thinking-sphinxを読んでみてください
どのアプローチをお勧めしますか?
別の検索ツールの場合、どれですか?私の要件は非常に基本的なものなので、セットアップが非常に簡単で、ドキュメント、例、チュートリアルがたくさんあるものが本当に欲しいです!
抽出する場合、PDF、Word、Excel、HTMLなどの一般的なファイルタイプの抽出機能をお勧めしますか?
みんな、ありがとう。本当にあなたの助けに感謝します。
solr - solr の抽出機能を使用しているときに動的フィールドにデータを追加するにはどうすればよいですか?
Solr サーバーとのインターフェイスとして、solr-php-client (http://code.google.com/p/solr-php-client/) という PHP ライブラリを使用しています。ドキュメントからデータを抽出して保存し、検索することはできますが、インデックス作成用のパラメーターに独自のデータを追加することはできないようです。
「テキスト」をクエリして結果を取得できます。
しかし、動的フィールド、つまり「SS_Stage_ms」のいずれにもクエリを実行できません。
該当するスキーマ定義は次のとおりです。
drupal - ExtractingRequestHandler を Solr で動作させる
Drupal Web サイトで Word および PDF ドキュメントのインデックスを作成できるように、Solr を Tika と連携させようとしています。
Wikiページとこのページを見たところ、solrconfig.xmlにrequestHandlerを追加することが示されています。
私はそれを行いましたが、Solr は例外をスローします。
org.apache.solr.common.SolrException: クラス 'org.apache.solr.handler.extraction.ExtractingRequestHandler' のロード中にエラーが発生しました
私はいくつかの検索を行い、他の人がこの問題を抱えていることを確認しましたが、簡単な修正は見られません. Windows Server 2003でSolr 3.4.0を使用しています。これを解決する方法についてのアイデアはありますか?
補足として、検索にSolrを使用するDrupalを持っていますが、それは機能しています。しかし、私がうまくいかないのは、Solr が PDF および Word ドキュメントにインデックスを付けることです。これはほとんどの Web サイトで共通のニーズであることは確かですが、私はこれに何日も費やしてきましたが、これほど文書化されておらず、これを理解するのが難しいとは信じられません。