問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Tika での HTML の問題の解析
私はウェブページをクロールしており、クロールした後、そのウェブページからすべてのリンクを抽出し、以下のコードを使用して Apache Tika と BoilerPipe を使用してすべての URL を解析しようとしています。このような。そして、HTMLParser.java でいくつかのエラーが表示されます: 行番号 102。これは、HTMLParser.java の行番号 102 です。
HTMLParse コードも提供しました。
これは私の HTMLParser.java ファイルです。
任意の提案をいただければ幸いです。
java - Apache Tika を使用した XML ファイルの解析
私はWebページをクロールしており、クロールした後、そのWebページからすべてのリンクを抽出し、以下のコードを使用してApache TikaとBoilerPipeを使用してすべてのURLを解析しようとしています.次のエラー。このエラーの意味がわかりません。コードに問題があるのか、それとも XML ファイルに問題があるのか? そして、これは HTML Parser.java の行番号 100 以下です。
私が抱えているエラー-
HTMLParser.java コード -
java - ForkParser を使用しているときに Tika メタデータ オブジェクトが読み込まれないのはなぜですか?
ForkParser
は、Tika バージョン 0.9 で導入された新しい Tika パーサーで、org.apache.tika.fork
. 新しいパーサーは、新しい jvm プロセスをフォークして、渡されたファイル ストリームを分析します。これは、Tika のメタデータ抽出プロセスに割り当てるメモリの量を制限する良い方法であると考えました。ただし、Metadata
オブジェクトには、AutoDetectParser
. テストは、BodyContentHandler
オブジェクトが ではないことを示しましたnull
。
Metadata
オブジェクトに何も入力されていないのはなぜですか(手動で追加された を除くRESOURCE_NAME_KEY
)?
solr - リッチ ドキュメントをインポートするときの SOLR の schema.xml のベスト プラクティスはありますか?
私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。
を使用する場合、ベスト プラクティスschema.xml
および/またはsolrconfig.xml
SOLR で使用する方法はありExtractingRequestHandler
ますか?
私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。
ベスト プラクティスのようなものが存在しない場合、schema.xml
および/またはsolrconfig.xml
、できれば既存のオープン ソース プロジェクトや優れたブログ投稿からの良い例にも興味があります。
どんなポインタでも大歓迎です!
java - Autodetect パーサーが正常に動作しているように見えるのに、Tika の ForkParser が NoClassDefFoundError をスローするのはなぜですか?
私はApache Tika 1.0を使用しています。ForkParser を使用して、pdf ファイルを解析するたびに、次の NoClassDefFoundException が発生します。
jar を調べると、MemoryURLStreamHandler$Record が tika-core jar ファイルに存在することがわかります。ForkParser の代わりに AutoDetectParser を使用すると、問題なくファイルからメタデータを抽出できますが、Tika のメモリ使用量を制限できる必要があるため、ForkParser を使用する必要があります。Tika の ForkParser で動作するように PDF 解析を行うにはどうすればよいですか?
解析を行うところまでのコードのスニペットを次に示します。
編集#1
「-f」オプションを使用して Tika 1.0 と Tika 0.10 CLI アプリの両方をテストしたところ、Mac OS-X 用の SoyLatte Java 6 ポートを使用しているときに IOException (Broken Pipe) を受け取りました。ポートは開発マシンでのみ実行されているため、次のように「-f」スイッチを使用して Linux テスト マシンで CLI アプリ (1.0 と 0.10 の両方) を実行しました。
java -jar tika-app-1.0.jar -f /path/to/my/file.pdf
例外は発生しなくなりましたが、出力も得られませんでした。これは奇妙だと思いましたが、まだ機能しているのではないかと思いました。
Mac OS-X ターミナルですべての環境変数の設定を解除し、OS-X の組み込み Java 6 で上記と同じように Tika CLI を実行しようとしました。Linux テスト マシンと同じ結果が得られました。いくつかの改行が出力されますが、他には何もありません。私はpdfファイルの代わりにjpgファイルを試してみました.tikaアプリは宣伝されているメタデータを含むxhtmlドキュメントを印刷しました! 次にdocxファイルを試してみましたが、pdfのように何も印刷されません。
編集#2
小さなテスト Java プログラムを作成し、それをアプリケーションのコンテキストの外に配置して、新しい環境で実行できるようにしました。
こんな感じでまとめました
javac -cp /path/to/tika-app-1.0.jar ForkParserTest.java
そしてそのまま走った
java -cp /path/to/tika-app-1.0.jar:${PWD} ForkParserTest /path/to/file.pdf
jpegでもテストしました。Tika CLI アプリとまったく同じように動作し、jpg の XHTML ドキュメントを印刷しますが、pdf または docx ファイルは何も印刷しません。
この問題を解決する方法を知っている人がいたら教えてください!また、このテストを pdf ファイルまたは docx ファイルで実行し、実際に印刷する結果が得られた場合は、その方法も教えてください。
ありがとう!
また、stackoverflow に投稿するのはかなり新しいものです。これが完全に tl;dr である場合は、フィードバックをいただければ幸いです。これをより簡潔にする方法を提案してください。
solr - NoClassDefFoundError PDF 抽出での MimeTypeException
PDF ファイルで update/extract を使用しようとすると例外が発生します
私のセットアップは次のとおりです。- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38
solr/admin を参照できます OK
すべての contrib/extract および apache-solr-cell3.5.0.jar ライブラリを tomcat フォルダー webapps/solr/WEB-INF/lib に配置しました。
次を使用して抽出を呼び出しています:-
エラーは
ポインタをいただければ幸いです - このエラーが他の場所で発生するように見えるのは、Nutch とキャッシュされた結果の場合のみです。
クエリ文字列と *.doc ファイルで MIME タイプを送信しようとしましたが、同じエラーが発生しました。
solr - ExtractingRequestHandler - 多値リテラル フィールドをどのようにポストしますか?
リテラルの多値フィールドを PDF 抽出とともに投稿しようとしています。フィールド値の 1 つだけがインデックスに追加されているようです。これは別の方法で渡す必要がありますか?
現在、(POST 値を介して) 同等のものを送信しています:
solr - TikaSolrメタデータマッピングはドキュメントタイトルを無視します
solr用に次の設定ファイルがあります。
これが私のスキーマです:
自分を設定したいtitle
。しかし、Tikaは独自に設定し続けますtitle
(そのため、一時的に設定します)。これは、やmultiValued="true"
のようなものを手動でマップする必要があるため、奇妙に感じます。stream_size
content_type
この問題に対してどのような解決策がありますか?
title
次のように、Tikaに割り当てたものを上書きしてもらいたいです。
私は3つのドキュメントを持っていますが、そのうちの1つは、Tikaがを抽出しませんtitle
。この場合、私は自分のタイトルを渡して設定しますliteral.title
。Tikaがを抽出するときは、title
渡したものをオーバーライドしますliteral.title
。これは可能ですか?
java - tika でペルシャ語の Web ページを検出するにはどうすればよいですか?
apache tika ツールキットでペルシア語の Web ページを検出するのに役立つサンプル コードが必要です。
apache.tika jar ファイルをダウンロードして、クラスパスに追加しました。しかし、このコードはペルシャ語ではエラーになりますが、英語では機能します。tika の languageIdentifier パッケージにペルシア語を追加するにはどうすればよいですか?
apache - 他の言語IDを追加するためにtikaで言語プロファイルを作成する方法は?
最初に、私はtikaによってペルシア語を検出しようとしました:
tikaでペルシア語のWebページを検出するにはどうすればよいですか?
しかし、tikaはペルシア語をサポートしていないことを理解しました。Farsiを処理するには、tikaで言語プロファイルを作成する必要があります。しかし、私はそれを行う方法がわかりません。実は次のリンクやグーグルの他のリンクからは何も理解できません。私を助けてください。
https://issues.apache.org/jira/browse/TIKA-546
tikaに言語プロファイルを追加する手順を知りたいです。