問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - tika パーサーを使用した XPath アプリケーション
不規則な Web コンテンツ (html、pdf 画像など) をきれいにしたいのですが、ほとんどが html です。そのためにtikaパーサーを使用しています。しかし、htmlクリーナーで使用しているため、xpathを適用する方法がわかりません。
私が使用するコードは、
しかし、この場合、出力が得られません。しかし、url- google.com については出力が得られます。
どちらの場合も、xpath の適用方法がわかりません。
アイデアをください...
ボディコンテンツハンドラーが使用する方法としてカスタムxpathを作成してみましたが、
しかし、指定されたxpathでコンテンツを取得できません..
java - Apache Tika を使用して Microsoft Office 形式からクリップボードのコンテンツを取得する
Apache Tika を使用して、Microsoft Office 形式からクリップボードのコンテンツを取得することは可能ですか? どうすれば達成できますか?
java - org.apache.tikaソースをプロジェクトに統合するにはどうすればよいですか?
Apache Tikaソースフォルダーをダウンロードし、Mavenをインストールしました。次に、コマンドライン(mvn install)でTikaをインストールしました。
しかし今、私のプロジェクトでTikaを使用するための次のステップは何であるかわかりません。実際、プロジェクトにTikaを追加する方法がわかりません。
farsi.ngpjarファイルの代わりにTikaソースを使用したのは、Tikaのファイルを追加したかったからlanguageIdentificationです。farsi.ngpTika by Mavenを追加してビルドしましたが、次のステップがわかりません。プロジェクトに本当に何を追加する必要がありますか?
java - Tika - ドキュメントからメイン コンテンツを取得する
Apache Tika の GUI ユーティリティは、指定されたドキュメントまたは URL のメイン コンテンツ (フォーマット テキストと構造化テキストを除く) を取得するためのオプションを提供します。docs/url のメイン コンテンツの抽出を担当するメソッドを知りたいだけです。その方法を自分のプログラムに組み込むことができるように。また、HTML ページからデータを抽出する際にヒューリスティック アルゴリズムを使用しているかどうか。抽出されたコンテンツでは、広告が表示されない場合があるためです。
更新: BoilerPipeContentHandlerがそれを担当していることがわかりました。
apache - Nutch プラグインで tika を使用する
要するに、Web ページのコンテンツを取得して特別な方法で処理するプラグインを実装しています。
私の主な問題は、WebページをplainTextに変換して処理できるようにしたいということです.tikaツールキットでそれができることを読みました
それで、tikaを使用してURLを解析するこのコードを見つけたので、フィルターメソッドの下に記述します
metadata.get(Metadata.CONTENT_TYPE) の結果は text/html です
しかし、handler.toString() は空です!
更新:また、パーサーメソッドの後にこの行を使用しようとしています
そして、私はこの結果を得る: Status : notparsed(0,0)
java - Apache Tika:コンテンツ抽出なしでメタデータのみを解析
ドキュメントからメタデータを抽出するためにApacheTikaを使用しています。著者、タイトル、日付などの基本的なダブリンコアの設定に主に関心があります。ドキュメントの内容にはまったく関心がありません。現在、私は単に通常のことをしています:
コンテンツを解析しないようにTikaに指示する方法はありますか?これにより、メモリが節約されるだけでなく、処理が高速化されることを期待しています。
pdf - PDFファイルのディレクトリにインデックスを付けて検索するようにApacheTikaとApacheSolrを設定するにはどうすればよいですか?
Apache TikaインデックスをPDFおよびサブディレクトリを含むテキストファイルのディレクトリにして、このディレクトリのコンテンツの検索エンジンを使用できるように、Apache Solrに送信するにはどうすればよいですか?
WindowsでもLinuxでも、アドバイスは関係ありません。これら2つのプロジェクトのドキュメントは主に開発者向けであるため、これを機能させることができませんでした。これは問題ありませんが、ドキュメントがあいまいで、Java以外の場合は十分に明確でないため、これを機能させることはできません。デベロッパー。
非常に簡単です。ApacheLuceneを使用して検索エンジンを構築するにはどうすればよいですか。/home/materialまたはc:/materialまたは/cygdrive / c/materialのインデックスを作成して検索できるプロジェクトファミリーです。
よろしくお願いします
java - 正規表現を使用した文字列からのコンテンツ抽出
Apache Tika を使用して、PDF ファイルの内容を文字列に抽出しています。ただし、ファイル内のいくつかのパターンを検索する必要があります。
文字列を検索するには、正規表現を使用する必要があると思います。これは、特定のキーワードがPDFファイルに存在するかどうかを確認するためのTikaの正しいアプローチと使用ですか。
次のコードを使用していますが、正規表現に一致しません。keywordテキストで見つけたい文字列です。
solr - リモートGlassfishでの解析(Tikaを使用)
Tikaパーサーを使用してファイルをSolrにインデックス付けしています。独自のパーサー(XMLParserを拡張する)を作成しました。それは私自身のmimetypeを使用します。内部が次のようなjarファイルを作成しました。
カスタムmimetypesでは、xmlファイルにいくつかの特別なタグがあるため、新しいmimetypeの定義を入れました。
ここで問題はどこにありますか。ローカルマシンにインストールされているGlassfishでSolrを使用して解析とインデックス作成をテストしてきました。それはうまくいきました。それから私はそれをいくつかのリモートサーバーにインストールしたかった。同じバージョンのglassfishがインストールされています(3.1.1)。Solrアプリケーションをコピーして貼り付けました。これは、すべてのライブラリ(tika jarとカスタムパーサーを含むjarを含む)を含むホームディレクトリです。残念ながら、それは機能しません。Solrにファイルを投稿した後、content-typeフィールドで、カスタムmimeタイプが検出されたことがわかります。ただし、MyParserクラスが実行されなかった場合のように、そこにあると想定されるフィールドはありません。私が得る唯一のフィールドは、ダブリンコアからのものです。TikaがXMLParserのみを使用していることを(いくつかの印刷行を追加するだけで)確認しました。誰かが同様の問題を抱えていましたか?これをどのように処理しますか?
lucene - Lucene Index から特定のテキストを抽出するにはどうすればよいですか?
pdf ファイルを lucene インデックスに追加したい (おそらく行った)。今、私は lucene 近接検索クエリによって特定のテキストを抽出したいと考えています。
近接検索クエリはファイル名のみを返します。
But i want to extract all texts within the proximity query range.
例: test.pdf:--> 「サンプル テキスト A xxxxx B. Lucene is great of all time」
近接クエリは: AB ~5
抽出したい: xxxxx
どのようにできるのか......?
あなたの助けとヒントを前もってありがとう........
よろしく、
センティル・サラバナン