“apache-tika”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

2797 参照

java - XML パーサー + 索引付けデータ

Lucene を使用していくつかの xml ドキュメントのインデックスを作成する必要がありますが、その前に、これらの XML を解析してタグ内の情報を抽出する必要があります。

XML は次のようになります。

タグ begin と end 内のタイムスタンプのみを抽出し、p タグ内のテキストにインデックスを付ける必要があります。目標は、索引付けされたテキストを照会して、それぞれがヒットしたタイムスタンプのギャップを知ることです。

たとえば、「テキスト」という単語をクエリすると、出力は次のようになります。「2 ヒット、00:11.76-00:16.04、00:18.52-00:22.88」

Lucene を使用して XML 全体のインデックス作成を開始しました。今、私はファイルを解析したいのですが、この問題を解決するための最良の近似が何であるかわかりません.

どんな助けやアドバイスも大歓迎です:) ありがとうございます！

2011-06-20T12:18:08.550

0 投票する

2 に答える

2279 参照

curl - Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します

こんにちは私はSolrに関してはナイーブなユーザーです。次のハードルを教えてください。

1）SolrIndexPDFドキュメント

解決策を試しました

tika-app 0.9.jarを使用して、入力PDFファイルからテキストファイルにコンテンツを抽出しました。今、私はドキュメントをSolrにインデックス付けするJavaコードを書き込もうとしています。

2）それらをリモートサーバーに投稿する

ドキュメントまたはインデックスのいずれかを中央のリモートサーバーに投稿する必要があります。これにはcurlコマンドを使用できますか。

バラジよろしく。

curl indexing solr apache-tika pdftotext

2011-06-26T07:56:59.353

0 投票する

1 に答える

1261 参照

java - Apache Tika: テキストファイルの解析で最後の部分が省略される?

Tika を使用してプレーンテキストファイルを解析しようとしていますが、動作に一貫性がありません。

より具体的には、単純なハンドラーを次のように定義しました。

次に、ファイル (" myfile.txt ") を次のように解析します。

ファイル内のすべてのテキストが画面に出力されることを期待していますが、最後の一部はそうではありません。より具体的には、characters()コールバックは、コールバックごとに 4,096 文字を読み取り続けますが、最終的には、この特定のファイル (数 MB の長さ) の最後の 5,083 文字を明らかに除外するため、最後のコールバックを見逃すことさえありません。

また、長さが約 5,000 文字の別の小さなファイルでテストしたところ、コールバックが発生していないようです。

どちらの場合も、MIME タイプはtext/plainとして正しく検出されます。

何か案は？

ありがとう！

java apache apache-tika

2011-07-07T20:25:16.117

0 投票する

4 に答える

7035 参照

java - TIKA を使用して URL からテキストを抽出する

Tika で URL からテキストを抽出することは可能ですか? リンクは大歓迎です。それとも、TIKA は pdf、word、およびその他のメディアドキュメントに対してのみ使用できますか?

java apache-tika

2011-07-11T21:30:22.677

0 投票する

1 に答える

3468 参照

solr - Solr : データインポートハンドラと solr セル

solr セルを使用してデータインポートハンドラを使用してリッチドキュメント (pdf、office) のインデックスを作成することは可能ですか。

私はsolr3.2を使用しています。

ありがとう。

solr apache-tika dataimporthandler solr-cell

2011-07-13T08:38:03.910

0 投票する

2 に答える

1780 参照

java - TIKAを使用してURLのコンテンツ（テキスト）を抽出します

URLからテキストを抽出するにはどうすればよいですか？私のコードでは、そのURLのソースコードを抽出しています...

助言がありますか？？

java apache-tika

2011-07-15T22:42:58.270

0 投票する

1 に答える

346 参照

lucene - Solr CEL/Tika 出力のフォーマットは何ですか? そして、それを修正する方法は？

Solr を使用して、DOC、DOCX、および PDF ファイルのインデックスを作成しています。テキストの保存を有効にして、チェックアウトしました。サンプル DOC ファイルの結果は次のとおりです。

は、英国ケンブリッジに本拠を置くモバイルユーザーインターフェイス (UI) ソフトウェア開発会社です。会社を統合した後、Qualcomm はインターフェイスマークアップ言語とそれに付随する統合開発環境 (IDE) をHYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"として再ブランド化しました * \o "UiOne (ページが存在しません)" uiOne** . 2009 年 3 月、Qualcomm はケンブリッジのエンジニアリングスタッフ (主にHYPERLINK "http://en.wikipedia.org"に取り組んでいる部門) に通知しました。

Doc には、Wikipdia からの資料が含まれています。http://pastebin.com/8FL9eHJvで完全な出力をキャプチャしました

そのため、 Solr CEl/Tikaは独自の書式設定を挿入し、書式設定の結果が検索出力に表示されます。検索結果 (テキストスニペット) に書式が含まれないようにするには、どうすれば問題を解決できますか?

グーグルで調べてみると、TIKAにはいくつかの出力形式があることがわかりましたが、それはアプローチですか？または、結果をレンダリングする前にテキストをフィルタリングできるプラグインはありますか?

関連する詳細: 私の構成は在庫に近いです: 私のアップロードコマンドは Python のバリエーションです

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

私のschema.xml http://pastebin.com/VLz2uuDQ

私の SolrConfig.xml http://pastebin.com/X2J2jj64

lucene solr apache-tika

2011-07-20T17:21:18.483

0 投票する

2 に答える

1791 参照

tomcat - Solr1.4.1およびTika0.4で/solr/ update/extractの404を取得する

Solr 1.4.1を正常にインストールしましたが、Tika 0.4（contrib / extractに含まれています）を正しく動作させることができません。http：// localhost：8080 / solr / ss / update / extractをヒットしようとすると404エラーが発生します（「ss」が私のコアです）。

デプロイ後、すべてのcontrib / extract jarをSolrのWEB-INFディレクトリーに移動しました。また、「dist」ディレクトリーにある「solr-cell」jarも移動しました。

上記で使用した方法はSolr3.3で機能しましたが、PDFの解析がTika 0.8で機能しなくなったため、Solr1.4.1とTika0.4に戻すことにしました。

それが助けになるなら、私はTomcat7.0を使用しています。

tomcat solr apache-tika

2011-07-21T12:55:06.817

0 投票する

1 に答える

3470 参照

java - いくつかのドキュメントタイプに対して Apache Tika を適切に構成するにはどうすればよいですか?

私はしばらくTikaを使用してきましたが、ファイルを表すデフォルトまたはカスタムのTikaConfigでTikaファサードのみを使用することになっていることを知っていorg/apache/tika/mime/tika-mimetypes.xmlます。

私のアプリケーションでは、以下と異なるドキュメントタイプは許可されませんhtml,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg

デフォルトの MediaTypes には他にもたくさんの種類が含まれています。

tika-mimetypes.xml を変更して、不要な MimeTypes を削除する必要がありますか? 次に、私が理解しているように、これらの MimeTypes に対してのみ複合パーサーと検出器を作成します。

しかし、サポートされていないタイプが提供された場合はどうなりますか? TikaException または SAXException をキャッチして、ファイルを拒否する必要がありますか?

また、 tika-mimetypes.xml を手動で編集するにはどうすればよいですか? 1290 の MimeType があり、ほとんどがばかげたサードパーティの MimeType です。なぜ彼らはそこにいるのですか？

java configuration apache-tika

2011-07-23T23:46:17.537

問題タブ [apache-tika]

Reference