“apache-tika”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1306 参照

java - tika パーサーを使用した XPath アプリケーション

不規則な Web コンテンツ (html、pdf 画像など) をきれいにしたいのですが、ほとんどが html です。そのためにtikaパーサーを使用しています。しかし、htmlクリーナーで使用しているため、xpathを適用する方法がわかりません。

私が使用するコードは、

しかし、この場合、出力が得られません。しかし、url- google.com については出力が得られます。

どちらの場合も、xpath の適用方法がわかりません。

アイデアをください...

ボディコンテンツハンドラーが使用する方法としてカスタムxpathを作成してみましたが、

しかし、指定されたxpathでコンテンツを取得できません..

2012-02-03T13:12:00.937

0 投票する

0 に答える

132 参照

java - Apache Tika を使用して Microsoft Office 形式からクリップボードのコンテンツを取得する

Apache Tika を使用して、Microsoft Office 形式からクリップボードのコンテンツを取得することは可能ですか? どうすれば達成できますか？

java apache-tika

2012-02-03T15:10:26.487

0 投票する

1 に答える

2289 参照

java - org.apache.tikaソースをプロジェクトに統合するにはどうすればよいですか？

Apache Tikaソースフォルダーをダウンロードし、Mavenをインストールしました。次に、コマンドライン（mvn install）でTikaをインストールしました。

しかし今、私のプロジェクトでTikaを使用するための次のステップは何であるかわかりません。実際、プロジェクトにTikaを追加する方法がわかりません。

farsi.ngpjarファイルの代わりにTikaソースを使用したのは、Tikaのファイルを追加したかったからlanguageIdentificationです。farsi.ngpTika by Mavenを追加してビルドしましたが、次のステップがわかりません。プロジェクトに本当に何を追加する必要がありますか？

java maven apache-tika

2012-02-06T15:21:38.733

0 投票する

3 に答える

1769 参照

java - Tika - ドキュメントからメインコンテンツを取得する

Apache Tika の GUI ユーティリティは、指定されたドキュメントまたは URL のメインコンテンツ (フォーマットテキストと構造化テキストを除く) を取得するためのオプションを提供します。docs/url のメインコンテンツの抽出を担当するメソッドを知りたいだけです。その方法を自分のプログラムに組み込むことができるように。また、HTML ページからデータを抽出する際にヒューリスティックアルゴリズムを使用しているかどうか。抽出されたコンテンツでは、広告が表示されない場合があるためです。

更新: BoilerPipeContentHandlerがそれを担当していることがわかりました。

java apache-tika

2012-02-07T08:26:16.620

0 投票する

2 に答える

2124 参照

apache - Nutch プラグインで tika を使用する

要するに、Web ページのコンテンツを取得して特別な方法で処理するプラグインを実装しています。

私の主な問題は、WebページをplainTextに変換して処理できるようにしたいということです.tikaツールキットでそれができることを読みました

それで、tikaを使用してURLを解析するこのコードを見つけたので、フィルターメソッドの下に記述します

metadata.get(Metadata.CONTENT_TYPE) の結果は text/html です

しかし、handler.toString() は空です!

更新:また、パーサーメソッドの後にこの行を使用しようとしています

そして、私はこの結果を得る: Status : notparsed(0,0)

apache parsing nutch apache-tika

2012-02-07T09:49:49.533

0 投票する

0 に答える

2620 参照

java - Apache Tika：コンテンツ抽出なしでメタデータのみを解析

ドキュメントからメタデータを抽出するためにApacheTikaを使用しています。著者、タイトル、日付などの基本的なダブリンコアの設定に主に関心があります。ドキュメントの内容にはまったく関心がありません。現在、私は単に通常のことをしています：

コンテンツを解析しないようにTikaに指示する方法はありますか？これにより、メモリが節約されるだけでなく、処理が高速化されることを期待しています。

java metadata apache-tika

2012-02-08T10:43:34.260

0 投票する

2 に答える

1475 参照

pdf - PDFファイルのディレクトリにインデックスを付けて検索するようにApacheTikaとApacheSolrを設定するにはどうすればよいですか？

Apache TikaインデックスをPDFおよびサブディレクトリを含むテキストファイルのディレクトリにして、このディレクトリのコンテンツの検索エンジンを使用できるように、Apache Solrに送信するにはどうすればよいですか？

WindowsでもLinuxでも、アドバイスは関係ありません。これら2つのプロジェクトのドキュメントは主に開発者向けであるため、これを機能させることができませんでした。これは問題ありませんが、ドキュメントがあいまいで、Java以外の場合は十分に明確でないため、これを機能させることはできません。デベロッパー。

非常に簡単です。ApacheLuceneを使用して検索エンジンを構築するにはどうすればよいですか。/home/materialまたはc：/materialまたは/cygdrive / c/materialのインデックスを作成して検索できるプロジェクトファミリーです。

よろしくお願いします

pdf solr lucene full-text-search apache-tika

2012-02-17T10:22:33.150

0 投票する

0 に答える

504 参照

java - 正規表現を使用した文字列からのコンテンツ抽出

Apache Tika を使用して、PDF ファイルの内容を文字列に抽出しています。ただし、ファイル内のいくつかのパターンを検索する必要があります。

文字列を検索するには、正規表現を使用する必要があると思います。これは、特定のキーワードがPDFファイルに存在するかどうかを確認するためのTikaの正しいアプローチと使用ですか。

次のコードを使用していますが、正規表現に一致しません。keywordテキストで見つけたい文字列です。

java regex pattern-matching apache-tika

2012-02-17T10:33:56.467

0 投票する

1 に答える

202 参照

solr - リモートGlassfishでの解析（Tikaを使用）

Tikaパーサーを使用してファイルをSolrにインデックス付けしています。独自のパーサー（XMLParserを拡張する）を作成しました。それは私自身のmimetypeを使用します。内部が次のようなjarファイルを作成しました。

カスタムmimetypesでは、xmlファイルにいくつかの特別なタグがあるため、新しいmimetypeの定義を入れました。

ここで問題はどこにありますか。ローカルマシンにインストールされているGlassfishでSolrを使用して解析とインデックス作成をテストしてきました。それはうまくいきました。それから私はそれをいくつかのリモートサーバーにインストールしたかった。同じバージョンのglassfishがインストールされています（3.1.1）。Solrアプリケーションをコピーして貼り付けました。これは、すべてのライブラリ（tika jarとカスタムパーサーを含むjarを含む）を含むホームディレクトリです。残念ながら、それは機能しません。Solrにファイルを投稿した後、content-typeフィールドで、カスタムmimeタイプが検出されたことがわかります。ただし、MyParserクラスが実行されなかった場合のように、そこにあると想定されるフィールドはありません。私が得る唯一のフィールドは、ダブリンコアからのものです。TikaがXMLParserのみを使用していることを（いくつかの印刷行を追加するだけで）確認しました。誰かが同様の問題を抱えていましたか？これをどのように処理しますか？

solr glassfish apache-tika

2012-02-23T07:29:11.847

0 投票する

1 に答える

895 参照

lucene - Lucene Index から特定のテキストを抽出するにはどうすればよいですか?

pdf ファイルを lucene インデックスに追加したい (おそらく行った)。今、私は lucene 近接検索クエリによって特定のテキストを抽出したいと考えています。

近接検索クエリはファイル名のみを返します。

But i want to extract all texts within the proximity query range.

例: test.pdf:--> 「サンプルテキスト A xxxxx B. Lucene is great of all time」

近接クエリは: AB ~5

抽出したい: xxxxx

どのようにできるのか......？

あなたの助けとヒントを前もってありがとう........

よろしく、

センティル・サラバナン

lucene apache-tika

2012-03-23T18:16:38.480

問題タブ [apache-tika]

Reference