0 投票する

2 に答える

4815 参照

java - Apache Tika での HTML の問題の解析

私はウェブページをクロールしており、クロールした後、そのウェブページからすべてのリンクを抽出し、以下のコードを使用して Apache Tika と BoilerPipe を使用してすべての URL を解析しようとしています。このような。そして、HTMLParser.java でいくつかのエラーが表示されます: 行番号 102。これは、HTMLParser.java の行番号 102 です。

HTMLParse コードも提供しました。

これは私の HTMLParser.java ファイルです。

任意の提案をいただければ幸いです。

2011-11-30T00:21:20.590

0 投票する

2 に答える

4152 参照

java - Apache Tika を使用した XML ファイルの解析

私はWebページをクロールしており、クロールした後、そのWebページからすべてのリンクを抽出し、以下のコードを使用してApache TikaとBoilerPipeを使用してすべてのURLを解析しようとしています.次のエラー。このエラーの意味がわかりません。コードに問題があるのか、それとも XML ファイルに問題があるのか? そして、これは HTML Parser.java の行番号 100 以下です。

私が抱えているエラー-

HTMLParser.java コード -

java parsing apache-tika

2011-11-30T00:30:58.297

0 投票する

1 に答える

737 参照

java - ForkParser を使用しているときに Tika メタデータオブジェクトが読み込まれないのはなぜですか?

ForkParserは、Tika バージョン 0.9 で導入された新しい Tika パーサーで、org.apache.tika.fork. 新しいパーサーは、新しい jvm プロセスをフォークして、渡されたファイルストリームを分析します。これは、Tika のメタデータ抽出プロセスに割り当てるメモリの量を制限する良い方法であると考えました。ただし、Metadataオブジェクトには、AutoDetectParser. テストは、BodyContentHandlerオブジェクトがではないことを示しましたnull。

Metadataオブジェクトに何も入力されていないのはなぜですか(手動で追加されたを除くRESOURCE_NAME_KEY)?

java memory-management metadata content-type apache-tika

2011-12-01T23:35:06.283

0 投票する

1 に答える

729 参照

solr - リッチドキュメントをインポートするときの SOLR の schema.xml のベストプラクティスはありますか?

私は SOLR と協力して、主に MS Word、Powerpoint、Excel、PDF などの豊富なドキュメント (約 40,000 アイテム) をインポートするプロジェクトに取り組んでいます。

を使用する場合、ベストプラクティスschema.xmlおよび/またはsolrconfig.xmlSOLR で使用する方法はありExtractingRequestHandlerますか?

私はデフォルトのスキーマを微調整して、ファセットを日付変更時間で機能させようとしましたが、それがなくても、Tika からのデフォルトの出力で十分な場合にこれらのファイルがどのように動作するかを示す良い例が十分に存在する可能性があると思います。

ベストプラクティスのようなものが存在しない場合、schema.xmlおよび/またはsolrconfig.xml、できれば既存のオープンソースプロジェクトや優れたブログ投稿からの良い例にも興味があります。

どんなポインタでも大歓迎です！

solr lucene full-text-search apache-tika solr-cell

2011-12-05T23:31:21.150

0 投票する

0 に答える

2119 参照

java - Autodetect パーサーが正常に動作しているように見えるのに、Tika の ForkParser が NoClassDefFoundError をスローするのはなぜですか?

私はApache Tika 1.0を使用しています。ForkParser を使用して、pdf ファイルを解析するたびに、次の NoClassDefFoundException が発生します。

jar を調べると、MemoryURLStreamHandler$Record が tika-core jar ファイルに存在することがわかります。ForkParser の代わりに AutoDetectParser を使用すると、問題なくファイルからメタデータを抽出できますが、Tika のメモリ使用量を制限できる必要があるため、ForkParser を使用する必要があります。Tika の ForkParser で動作するように PDF 解析を行うにはどうすればよいですか?

解析を行うところまでのコードのスニペットを次に示します。

編集＃1

「-f」オプションを使用して Tika 1.0 と Tika 0.10 CLI アプリの両方をテストしたところ、Mac OS-X 用の SoyLatte Java 6 ポートを使用しているときに IOException (Broken Pipe) を受け取りました。ポートは開発マシンでのみ実行されているため、次のように「-f」スイッチを使用して Linux テストマシンで CLI アプリ (1.0 と 0.10 の両方) を実行しました。

java -jar tika-app-1.0.jar -f /path/to/my/file.pdf

例外は発生しなくなりましたが、出力も得られませんでした。これは奇妙だと思いましたが、まだ機能しているのではないかと思いました。

Mac OS-X ターミナルですべての環境変数の設定を解除し、OS-X の組み込み Java 6 で上記と同じように Tika CLI を実行しようとしました。Linux テストマシンと同じ結果が得られました。いくつかの改行が出力されますが、他には何もありません。私はpdfファイルの代わりにjpgファイルを試してみました.tikaアプリは宣伝されているメタデータを含むxhtmlドキュメントを印刷しました! 次にdocxファイルを試してみましたが、pdfのように何も印刷されません。

編集＃2

小さなテスト Java プログラムを作成し、それをアプリケーションのコンテキストの外に配置して、新しい環境で実行できるようにしました。

こんな感じでまとめました

javac -cp /path/to/tika-app-1.0.jar ForkParserTest.java

そしてそのまま走った

java -cp /path/to/tika-app-1.0.jar:${PWD} ForkParserTest /path/to/file.pdf

jpegでもテストしました。Tika CLI アプリとまったく同じように動作し、jpg の XHTML ドキュメントを印刷しますが、pdf または docx ファイルは何も印刷しません。

この問題を解決する方法を知っている人がいたら教えてください！また、このテストを pdf ファイルまたは docx ファイルで実行し、実際に印刷する結果が得られた場合は、その方法も教えてください。

ありがとう！

また、stackoverflow に投稿するのはかなり新しいものです。これが完全に tl;dr である場合は、フィードバックをいただければ幸いです。これをより簡潔にする方法を提案してください。

java parsing fork noclassdeffounderror apache-tika

2011-12-08T00:50:42.280

0 投票する

3 に答える

2774 参照

solr - NoClassDefFoundError PDF 抽出での MimeTypeException

PDF ファイルで update/extract を使用しようとすると例外が発生します

私のセットアップは次のとおりです。- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

solr/admin を参照できます OK

すべての contrib/extract および apache-solr-cell3.5.0.jar ライブラリを tomcat フォルダー webapps/solr/WEB-INF/lib に配置しました。

次を使用して抽出を呼び出しています：-

エラーは

ポインタをいただければ幸いです - このエラーが他の場所で発生するように見えるのは、Nutch とキャッシュされた結果の場合のみです。

クエリ文字列と *.doc ファイルで MIME タイプを送信しようとしましたが、同じエラーが発生しました。

solr apache-tika solr-cell

2011-12-09T11:39:22.500

0 投票する

2 に答える

1247 参照

solr - ExtractingRequestHandler - 多値リテラルフィールドをどのようにポストしますか?

リテラルの多値フィールドを PDF 抽出とともに投稿しようとしています。フィールド値の 1 つだけがインデックスに追加されているようです。これは別の方法で渡す必要がありますか?

現在、(POST 値を介して) 同等のものを送信しています:

solr apache-tika solr-cell

2011-12-15T17:07:56.090

0 投票する

2 に答える

1428 参照

solr - TikaSolrメタデータマッピングはドキュメントタイトルを無視します

solr用に次の設定ファイルがあります。

これが私のスキーマです：

自分を設定したいtitle。しかし、Tikaは独自に設定し続けますtitle（そのため、一時的に設定します）。これは、やmultiValued="true"のようなものを手動でマップする必要があるため、奇妙に感じます。stream_sizecontent_type

この問題に対してどのような解決策がありますか？

title次のように、Tikaに割り当てたものを上書きしてもらいたいです。

私は3つのドキュメントを持っていますが、そのうちの1つは、Tikaがを抽出しませんtitle。この場合、私は自分のタイトルを渡して設定しますliteral.title。Tikaがを抽出するときは、title渡したものをオーバーライドしますliteral.title。これは可能ですか？

solr metadata apache-tika solr-cell

2011-12-21T17:58:16.797

0 投票する

1 に答える

2939 参照

java - tika でペルシャ語の Web ページを検出するにはどうすればよいですか?

apache tika ツールキットでペルシア語の Web ページを検出するのに役立つサンプルコードが必要です。

apache.tika jar ファイルをダウンロードして、クラスパスに追加しました。しかし、このコードはペルシャ語ではエラーになりますが、英語では機能します。tika の languageIdentifier パッケージにペルシア語を追加するにはどうすればよいですか?

java apache apache-tika language-detection farsi

2012-01-28T11:30:10.040

0 投票する

1 に答える

1020 参照

apache - 他の言語IDを追加するためにtikaで言語プロファイルを作成する方法は？

最初に、私はtikaによってペルシア語を検出しようとしました：

tikaでペルシア語のWebページを検出するにはどうすればよいですか？

しかし、tikaはペルシア語をサポートしていないことを理解しました。Farsiを処理するには、tikaで言語プロファイルを作成する必要があります。しかし、私はそれを行う方法がわかりません。実は次のリンクやグーグルの他のリンクからは何も理解できません。私を助けてください。

https://issues.apache.org/jira/browse/TIKA-546

tikaに言語プロファイルを追加する手順を知りたいです。

apache apache-tika language-detection

2012-01-28T13:48:56.440

問題タブ [apache-tika]

編集＃1

編集＃2

Reference