問題タブ [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4220 参照

solr - 単語内に空白を追加するPDFBox

PDFファイルからテキストを抽出しようとすると、いくつかの単語の間にランダムに空白が挿入されるようです。

このページのダウンロードセクションにある次のサンプルファイルでpdfbox-app-1.6.0.jar(最新バージョン)を使用しています:http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -トレーニング

私は他のいくつかのPDFファイルで試しましたが、いくつかのページで同じことをしているようです。

私は次のことをします:

java -jar pdfbox-app-1.6.0.jar ExtractText -force -console〜/ Desktop / ped training pdf.pdf

ダウンロードしたファイルに、コンソールの結果に間違って挿入された次のスペースが表示されます。「•子供が安全に歩いて学校に行くことができれば、混雑を減らすことができます。」

「•後の人生のために良い習慣を身につけます。」

「www.sheffield.gov.uk」

「ThinkAhead!、これはに基づいています」

などなど。

ご覧のとおり、上記のいくつかの単語の間にスペースがありますが、理由はありません。

私はubuntuを使用しており、SunのJDK1.6を実行しています。

私はこれをいくつかの異なるPDFファイルで試し、フォーラムで解決策を探してみました。同様のバグがありましたが、すべて解決されたようです。

ヘルプがあれば、または他の誰かが同じ問題を抱えている場合はコメントしてください。これは、検索のためにコンテンツを適切に索引付けする際に大きな問題を引き起こしています。

0 投票する
3 に答える
603 参照

java - Java アプレットを使用したネストされた Jar

まず、アプレットに jar ファイルを含めることに関するすべての質問を確認しました。しかしそれでも、私はこの「巨大な」問題を抱えています。

Java と Apache-Tika ライブラリ (4 つの jar ファイル、合計サイズ 40 mbs) を使用してアプリケーションを開発しています。アプリケーションは、アップロードされたドキュメント (doc、docx、odf、pdf、その他多数) の単語数をカウントする必要があります。このアプレットは、私が開発のために並行して使用している Netbeans 6.5 または Eclipse IDE からかなりうまく動作します。しかし、ブラウザにデプロイしようとすると、問題が発生します。

問題

最初のページはかなりよく読み込まれます。しかし、ドキュメントのパスを指定して [OK] (または [カウント]) をクリックすると、大量のエラー メッセージが表示されます。これらはすべて、外部の Apache-Tika ライブラリに関連する「 Class Not Found Exceptions 」です。私は、ライブラリのすべてのインクルードを正しく行ったと思います。そうしないと、アプレット ビューアーで実行されないからです。

HTML に関しては、ライブラリ (4 つの Apache-Tika Jars) およびその他の必要なすべてのファイルと共に、Word-Counter アプリケーション全体の jar を作成し、それに応じて jar をタグに含めました。入れ子になった jar ライブラリについて HTML ファイルで何か言及する必要がありますか? 入れ子になった jar に関する制限はありますか? どんな種類の助けも高く評価されます。フォークスを事前に学習していただきありがとうございます。

0 投票する
1 に答える
155 参照

java - 依存関係の自動ソート

私は外部ライブラリ (A.jar など) を持っています。これには、不要なものがたくさんあり、必要なものがいくつかあります。問題は、私のソース ファイル (そのライブラリを使用して作成したもので、インポートされるのはそのライブラリの一部のみ) からですが、それらのクラスのみを含めることは確実に機能しません (coz を試しました)。(非常に大きな)A.jar内のクラスファイルの内部依存関係(そう呼ばれている場合)については知りません。

問題 たとえば、必要なクラスのみを (私が知らない依存関係とともに) インポートするために使用するツールを、別のフォルダー (または別の Jar ファイル) にインポートします。Maven は適切なツールですか? もしそうなら、目標を達成するためにどのように使用すればよいですか?

ライブラリは Apache-Tika ライブラリです。そして、コードに以下をインポートしました。

doc、docx、pdf、odf、ppt、pptx、xls、xlsx、rtf、txt ドキュメントを分析する必要があります。したがって、これには最小限のライブラリを知る必要があります。

0 投票する
1 に答える
469 参照

ruby-on-rails - rsolrでファイルをアップロードするには?

Solr サーバーでインデックスを作成する必要があるファイルがあります。ファイルをアップロードするにはどうすればよいですか? curl でそれを行う方法を知っています: curl "http://localhost:8983/solr/update/extract?literal.id=doc1&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@tutorial.html"

( http://wiki.apache.org/solr/ExtractingRequestHandlerから) しかし、それを rsolr ruby​​gem に変換する方法がわかりません。

前もって感謝します。

0 投票する
1 に答える
1596 参照

solr - Solr ExtractingRequestHandler pdfテキスト抽出

Solr の PDF テキスト抽出に問題があります。Solr は Apache Tika を使用して PDF ファイルのテキストを抽出し、tika はそのために PDFBox を使用します。PDF ファイルを Solr に送信すると、テキストは正常に抽出されますが、テキストが完全にめちゃくちゃになります。そんな感じ

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

しかし、次のコマンドを使用してコマンドラインで PDFBox を使用して同じ PDF ファイルを直接抽出すると、良い結果が得られます。

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

どの Tika バージョンまたはそれ以上の PDFBox バージョンが solr で使用されているかわかりません。solr warファイルでそのライブラリを見つけることさえできません... libディレクトリ内のすべてのライブラリは次のとおりです。

誰かがそれに対する解決策を知っていれば、本当にうれしいです。

0 投票する
0 に答える
653 参照

solr - Tikaドキュメントの処理中にSOLRインポートがクラッシュする

Tikaインポートを使用してSolrを実行するときに問題が発生し、Webページのインデックス作成時にドキュメントがクラッシュし続けます。

Tikaドキュメントのコンテンツを削除してインポートを再開しますが、これは非常に面倒で、明らかにこれらのドキュメントのコンテンツを失います。

クラッシュログは次のとおりです。

クラッシュしているデータの例:

0 投票する
0 に答える
872 参照

solr - ファセット用に SOLR でフィールドをマッピングする

SOLR 3.4 を使用してリッチ テキスト ドキュメントのインデックスを作成していますが、希望どおりExtractingRequestHandlerに動作させるのに問題があります。

後でファセット検索に使用するフィールドとして作成日を保存したいと考えており、 で次のように定義していますschema.xml

私はこのように索引付けします:

動的フィールドを取得しますattr_creation_date(他のルールが確認します) が、creation_date. 私もcopyField次のように使用しようとして失敗しました:

さらに別の試みはこれを に入れていましsolrconfig.xmlたが、うまくいきませんでした:

ここで基本的な何かが欠けていると確信しています。どんな助けでも大歓迎です!

ExtractingRequestHandlerの設定solrconfig.xml:

私のschema.xmlファイル (多くのデフォルトのもの): https://gist.github.com/1358002

0 投票する
3 に答える
2654 参照

android - Tika は android と互換性がありますか?

私は Apache Tika の 1.0 リリースを見たことがあります。これは Java でのメタデータの抽出を大幅に容易にします。Android で使用できるかどうか疑問に思っています。

0 投票する
3 に答える
5376 参照

solr - Solr で PDF を解析するための Tika/PDFBox の代替 (1.4 以降の任意のバージョン)

Solr が PDF ファイルを正しく解析していないようです。PDFファイルを解析するためにApache Tika(PDFBoxを内部で使用していると思われる)を使用する代わりに他の方法があるかどうか疑問に思っていましたか?これを使用すると、コンテンツ間にランダムなスペースができるようです。同じ問題を抱えているPDFBox(最新バージョン)を介してPDFを直接実行することで、問題を特定しました。

Omnifind などの一部の OCR 商用ソフトウェアは PDF で問題なく動作しますが、それらを同じ方法で Solr と統合することはできず、購入することもできません。

0 投票する
1 に答える
438 参照

alfresco - Alfrescoコミュニティ4.0はDITAファイルのmimetypeを認識しません

そこで、Community 4.0.aをインストールし、3.4で以前に行ったように、mimetype-map.xmlを使用してmimetypeリストを拡張しました。

等...

しかし、DITAファイルをインポートするたびに、XMLファイルまたはプレーンテキストとして認識されます。私はそれを掘り下げましたが、ファイルの先頭を分析してmimetypeをチェックするApacheTIKAが原因のようです。

カスタムmimetype-mapを使用してTIKAをショートカットするにはどうすればよいですか(TIKAが最初にトリガーされ、何かが見つかった場合はゲームオーバーであることがコードからわかります)?

自分のパーサーを作成するTIKAを拡張する必要がありますか?