問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - ドキュメントの整合性の検証
これらの文書の完全性を確認する手順は?doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm
または少なくともそれらのいくつか。通常、コンテンツ リポジトリにアップロードするとき。
inputStream は常に MultiPart http リクエストから 99,99% 正しく読み取られていると思います。そうしないと、例外がスローされ、アクションが実行されます。しかし、ユーザーはすでに破損しているファイルをアップロードできます。それを確認するためにサードパーティのライブラリを使用しますか? odftoolkit、itextpdf、pdfbox、apache poi、またはtikaでそのようなものは見当たりませんでした
solr - キーワードを検索した後、Solrがドキュメントを開きます
いくつかのPDFドキュメントにインデックスを付けてから、検索UIを作成しようとしています。
この質問はやや関連しています
Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します
1)PDFドキュメントのインデックス作成-> tika jarを使用してPDFをテキストファイルに変換してから、curlコマンドを使用してインデックスを作成します。
2)検索UI-> Solritasブラウズ機能とその組み込みUIを使用しています。
目的 :
インデックス付けされたドキュメントのリストで「Lucene」という単語を検索し、指定されたクエリの結果セットを取得したときに、返されたドキュメントごとにリンクを表示し、開くことができるはずのドキュメントをクリックすると表示されます。そのドキュメント。
私の現在の考え:
ステップ1を双方向のステップから直接インデックスを作成する単一のステップに変更する必要があるかもしれないと思います。これらのPDFドキュメントの場所を示す追加のフィールドがschema.xmlにあるはずだとさえ思います。
いくつかの提案を教えてください
solr - Solr を使用して PDF メタデータを抽出する際のエラー
Solr 3.3 を使用しており、PDF ファイルからメタ データを抽出してインデックスを作成しようとしています。ドキュメントを追加するために、TikaEntityProcessor で DataImportHandler を使用しています。私の schema.xml ファイルで定義されているフィールドは次のとおりです。
したがって、メタデータ情報はインデックスを作成し、「attr_」という接頭辞が付いたフィールドに格納する必要があると思います。
これが私のデータ構成ファイルの外観です。データベースからソース ディレクトリ パスを取得し、それを FileListEntityProcessor に渡します。FileListEntityProcessor は、ディレクトリ内で見つかった各 pdf ファイルを TikaEntityProcessor に渡し、コンテンツを抽出してインデックスを付けます。
description と Creation-date は問題なく抽出されますが、 resourceName を抽出しているようには見えないため、 index にクエリを実行すると、ドキュメントのタイトル フィールドがありません。Creation-date と resourceName の両方がメタ データであるため、これは奇妙です。また、他の可能性のあるメタデータはいずれも、attr_ フィールドの下に格納されていませんでした。Tika 0.8 の使用に既知の問題があるというスレッドに出くわしたので、Tika 0.9 をダウンロードして 0.8 に置き換えました。また、pdfbox、jempbox、および fontbox を 1.3 から 1.4 にダウンロードして置き換えました。
ファイルに保存されているメタデータを確認するために、Tikaだけでpdfの1つを個別にテストしました。これは私が見つけたものです:
ご覧のとおり、resourceName メタデータがあります。もう一度インデックスを作成しようとしましたが、同じ結果が得られました。Creation-date の抽出とインデックスは問題ありませんが、resourceName は問題ありません。また、残りの属性は、attr_ フィールドの下でインデックス化されていません。
何がうまくいかないのですか?
apache-tika - 多くのテーブルを含むpdfのテキストの誤った行を返すtika
多くのテーブルを持つpdfファイルからテキストを抽出するためにtikaを使用しています。
無効なテキストが返され、2 つの単語の間の空白が削除されることがあります。たとえば、「現実世界への数学的アイデアのリンク」ではなく、「現実世界への数学的アイデア」を返します。
この種のエラーを最小限に抑える方法はありますか? または、使用できる別のライブラリがありますか? OCRを使用してこれらの種類のpdfを処理することは理にかなっていますか?
solr - 結果とともにPDFのSolr表示ページ番号
私の質問は、入力ドキュメントで検索された単語のページ番号を表示したいこのアクティビティの続きです。
だから私は使う
1) tika-0.9.jarを実行して、出力を中間ファイルとして抽出します。
2) 次に、抽出された出力が入力である別の XML を作成し、Solr が期待する形式でデータを書き込み、post.jarコマンドを使用してこの xml を投稿します。
3) Solr 3.2バージョン ( http://localhost:8983/solr/browse ) でSolritas Serach UIを使用して結果を表示します。
結果とともにページ番号を表示したいと思います。
例 :
入力PDFで単語テストを検索すると、これまでに管理したことは、この結果を含むドキュメントのすべてのセットを表示し、ドキュメントをクリックすると入力PDFが開きます。各入力ドキュメントに「テスト」という単語が含まれているページ番号を表示したいと思います。
ページ番号をインデックスに保存する方法でこれを行うことができるかどうかなど、いくつかの提案をお願いします。
あなたの提案は大歓迎です。
ありがとうございます。
java - Apache Commons Compress による圧縮タイプの検出
Apache Commons Compress APIを使用して、ファイルの圧縮タイプをそのコンテンツから(つまり、ファイル拡張子からではなく)確実に検出する簡単な方法はありますか?
Apache Tikaを使用すると、次のことができます
type変数には、検出されたファイル コンテンツの MIME タイプ (たとえば、text/plain、application/zip など) が入ります。
理想的には、Tika が AR アーカイブ形式を "text/plain" として誤検出するように見えるという事実など、さまざまな理由から、このプロセスに Tika を関与させたくありません。AR アーカイブ形式は、Commons Compress によって作成できる形式の 1 つです。
java - ApachetikaでMimeTypeサブタイプを取得する
odt、ppt、pptx、xlsxなどのドキュメントには、application/zipやapplication/x-tika-msofficeではなくiana.orgMediaTypeを取得する必要があります。
mimetypes.xmlを見ると、iana.orgのmime-typeと「sub-class-of」で構成されるmimeType要素があります。
親タイプ名の代わりにiana.orgmimeタイプ名を取得するにはどうすればよいですか?
mimeタイプの検出をテストするとき、私は次のことを行います。
試験結果 :
mimetypes.xmlから実際のサブタイプを取得する方法はありますか?x-tika-msofficeまたはapplication/zipの代わりに?
さらに、application / x-tika-ooxmlを取得することはありませんが、xlsx、docx、pptxドキュメントのapplication/zipを取得します。
apache-tika - tika を使用したカスタム xpath 式
org/apache/tika/sax/BodyContentHandler.java のコードを使用して、複雑な xpath 式を認識する tika 用のカスタム xpath contentHandler を構築しようとしています (他のものに tika を使用しているため)
このxpathは機能します
しかし、これはしません
tika の contentHandler (html コンテンツのアンバランスなタグと無効な文字を修正するため) を javax.xml.xpath の xpath エバリュエーターと統合したいと考えています。それを行う適切な方法は何ですか。tika が html コンテンツを評価して修正したら、inputsource を取得する方法はありますか?
java - Tikaのjavax.mail.MessagingException
こんにちは私はapacheTikaを使用していますが、要件に応じてTikaにいくつかの変更を加えたところ、Tikaを正常に構築できました。しかし、Tikaを実行しようとすると、次の例外が発生します。mail.jarとアクティベーションを追加しました。クラスパスへのjar。
誰かがこの問題を解決するのを手伝ってくれる?
前もって感謝します...
maven - Lucene プロジェクトに Tika を統合するにはどうすればよいですか?
Java プロジェクトに Apache Tika を統合したいと考えています。さまざまなファイル形式 (excel、doc、ppt など) からテキストを取得する必要があります。いくつか読んだ後、tika をビルドする唯一の方法は、src ファイルをダウンロードして Maven でビルドすることであることがわかりました。Tika src (apache-tika-0.9-src) のルート ディレクトリで「mvn install」を実行すると、次のエラーが発生します。
このエラーに関するヘルプを本当に感謝します。ありがとう:-)