問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - XML パーサー + 索引付けデータ
Lucene を使用していくつかの xml ドキュメントのインデックスを作成する必要がありますが、その前に、これらの XML を解析してタグ内の情報を抽出する必要があります。
XML は次のようになります。
タグ begin と end 内のタイムスタンプのみを抽出し、p タグ内のテキストにインデックスを付ける必要があります。目標は、索引付けされたテキストを照会して、それぞれがヒットしたタイムスタンプのギャップを知ることです。
たとえば、「テキスト」という単語をクエリすると、出力は次のようになります。「2 ヒット、00:11.76-00:16.04、00:18.52-00:22.88」
Lucene を使用して XML 全体のインデックス作成を開始しました。今、私はファイルを解析したいのですが、この問題を解決するための最良の近似が何であるかわかりません.
どんな助けやアドバイスも大歓迎です:) ありがとうございます!
curl - Solr Index PDFドキュメントを作成し、リモートサーバーに投稿します
こんにちは私はSolrに関してはナイーブなユーザーです。次のハードルを教えてください。
1)SolrIndexPDFドキュメント
解決策を試しました
tika-app 0.9.jarを使用して、入力PDFファイルからテキストファイルにコンテンツを抽出しました。今、私はドキュメントをSolrにインデックス付けするJavaコードを書き込もうとしています。
2)それらをリモートサーバーに投稿する
ドキュメントまたはインデックスのいずれかを中央のリモートサーバーに投稿する必要があります。これにはcurlコマンドを使用できますか。
バラジよろしく。
java - Apache Tika: テキスト ファイルの解析で最後の部分が省略される?
Tika を使用してプレーン テキスト ファイルを解析しようとしていますが、動作に一貫性がありません。
より具体的には、単純なハンドラーを次のように定義しました。
次に、ファイル (" myfile.txt ") を次のように解析します。
ファイル内のすべてのテキストが画面に出力されることを期待していますが、最後の一部はそうではありません。より具体的には、characters()コールバックは、コールバックごとに 4,096 文字を読み取り続けますが、最終的には、この特定のファイル (数 MB の長さ) の最後の 5,083 文字を明らかに除外するため、最後のコールバックを見逃すことさえありません。
また、長さが約 5,000 文字の別の小さなファイルでテストしたところ、コールバックが発生していないようです。
どちらの場合も、MIME タイプはtext/plainとして正しく検出されます。
何か案は?
ありがとう!
java - TIKA を使用して URL からテキストを抽出する
Tika で URL からテキストを抽出することは可能ですか? リンクは大歓迎です。それとも、TIKA は pdf、word、およびその他のメディア ドキュメントに対してのみ使用できますか?
solr - Solr : データ インポート ハンドラと solr セル
solr セルを使用してデータ インポート ハンドラを使用してリッチ ドキュメント (pdf、office) のインデックスを作成することは可能ですか。
私はsolr3.2を使用しています。
ありがとう。
java - TIKAを使用してURLのコンテンツ(テキスト)を抽出します
URLからテキストを抽出するにはどうすればよいですか?私のコードでは、そのURLのソースコードを抽出しています...
助言がありますか??
lucene - Solr CEL/Tika 出力のフォーマットは何ですか? そして、それを修正する方法は?
Solr を使用して、DOC、DOCX、および PDF ファイルのインデックスを作成しています。テキストの保存を有効にして、チェックアウトしました。サンプル DOC ファイルの結果は次のとおりです。
は、英国ケンブリッジに本拠を置くモバイルユーザー インターフェイス (UI) ソフトウェア開発会社です。会社を統合した後、Qualcomm はインターフェイス マークアップ言語とそれに付随する統合開発環境 (IDE) をHYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"として再ブランド化しました * \o "UiOne (ページが存在しません)" uiOne** . 2009 年 3 月、Qualcomm はケンブリッジのエンジニアリング スタッフ (主にHYPERLINK "http://en.wikipedia.org"に取り組んでいる部門) に通知しました 。
Doc には、Wikipdia からの資料が含まれています。http://pastebin.com/8FL9eHJvで完全な出力をキャプチャしました
そのため、 Solr CEl/Tikaは独自の書式設定を挿入し、書式設定の結果が検索出力に表示されます。検索結果 (テキスト スニペット) に書式が含まれないようにするには、どうすれば問題を解決できますか?
グーグルで調べてみると、TIKAにはいくつかの出力形式があることがわかりましたが、それはアプローチですか?または、結果をレンダリングする前にテキストをフィルタリングできるプラグインはありますか?
関連する詳細: 私の構成は在庫に近いです: 私のアップロード コマンドは Python のバリエーションです
curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"
私のschema.xml http://pastebin.com/VLz2uuDQ
私の SolrConfig.xml http://pastebin.com/X2J2jj64
tomcat - Solr1.4.1およびTika0.4で/solr/ update/extractの404を取得する
Solr 1.4.1を正常にインストールしましたが、Tika 0.4(contrib / extractに含まれています)を正しく動作させることができません。http:// localhost:8080 / solr / ss / update / extractをヒットしようとすると404エラーが発生します(「ss」が私のコアです)。
デプロイ後、すべてのcontrib / extract jarをSolrのWEB-INFディレクトリーに移動しました。また、「dist」ディレクトリーにある「solr-cell」jarも移動しました。
上記で使用した方法はSolr3.3で機能しましたが、PDFの解析がTika 0.8で機能しなくなったため、Solr1.4.1とTika0.4に戻すことにしました。
それが助けになるなら、私はTomcat7.0を使用しています。
java - いくつかのドキュメント タイプに対して Apache Tika を適切に構成するにはどうすればよいですか?
私はしばらくTikaを使用してきましたが、ファイルを表すデフォルトまたはカスタムのTikaConfigでTikaファサードのみを使用することになっていることを知っていorg/apache/tika/mime/tika-mimetypes.xml
ます。
私のアプリケーションでは、以下と異なるドキュメント タイプは許可されませんhtml,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg
デフォルトの MediaTypes には他にもたくさんの種類が含まれています。
tika-mimetypes.xml を変更して、不要な MimeTypes を削除する必要がありますか? 次に、私が理解しているように、これらの MimeTypes に対してのみ複合パーサーと検出器を作成します。
しかし、サポートされていないタイプが提供された場合はどうなりますか? TikaException または SAXException をキャッチして、ファイルを拒否する必要がありますか?
また、 tika-mimetypes.xml を手動で編集するにはどうすればよいですか? 1290 の MimeType があり、ほとんどがばかげたサード パーティの MimeType です。なぜ彼らはそこにいるのですか?