問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Solr CELL の ExtractingRequestHandler を使用して、パッケージ形式からファイルをインデックス化/抽出する
ExtractingRequestHandler と Tika を任意の圧縮ファイル形式 (zip、tar、gz など) で使用して、インデックス作成のためにコンテンツを抽出できますか?
curl を使用して solr に archived.tar ファイルを送信しています。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" ドキュメントをクエリすると、アーカイブ内のファイル名が「body_texts」としてインデックス付けされているという結果が得られますが、それらのファイルのコンテンツは抽出または含まれていません。これは私が期待した動作ではありません。参照: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example . 同じcurlコマンドを使用してアーカイブ内の実際のドキュメントの1つを送信すると、抽出されたコンテンツが「body_texts」フィールドに保存されます。
http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cellのマットで示されているように、すべての抽出依存関係を追加し、 MS Word、PDF、HTML ドキュメントからデータを正常に抽出できます。
以下のライブラリバージョンを使用しています。Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4
私が読んだすべてのことを考えると、このバージョンの Tika は、圧縮ファイル内のすべてのファイルからのデータの抽出をサポートするはずです。ヘルプや提案をいただければ幸いです。
pdf - Solr を使用したページ番号付きの PDF のインデックス作成
ExtractingRequestHandler を使用して、Solr で PDF のインデックスを作成しています。ドキュメントのヒットとともにページ番号を表示したいと思います。たとえば、「用語は2、3、5 ページfoo
に見つかりました」などです。bar.pdf
このようにクエリ結果にページ番号を含めることはできますか?
solr - Solr Tika、スタイルのあるテキスト
私はこのリンクを見ました: http ://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika 私が得たのは、Solrが検索するためのTikaからのスタイルのない純粋なテキストです。Solrのスタイルのテキストを使用することは可能ですか?つまり、solrで検索した後、元のスタイルでテキストを表示する必要があります。
solr - /solr/update で索引付けするときに SOLR ドキュメントをブーストする方法
Web サイトのインデックスを作成するために、Ruby スクリプトを使用して、ドキュメント ルート内のすべてのファイルを Solr にアップロードするシェル スクリプトを生成します。シェル スクリプトには、次のような多くの行があります。
...そして次で終わります:
これにより、ドキュメント ルート内のすべてのドキュメントが Solr にアップロードされます。tika と ExtractingRequestHandlerを使用して、ドキュメントをさまざまな形式 (主に PDF と HTML) で Solr にアップロードします。
このシェル スクリプトを生成するスクリプトでは、id フィールド (a/k/a url) が特定の正規表現に一致するかどうかに基づいて、特定のドキュメントをブーストしたいと考えています。
これらがブースティング ルール (疑似コード) であるとしましょう。
そのインデックス時間ブーストを http リクエストに追加する最も簡単な方法は何ですか?
私は試した:
と:
どちらも検索結果の順序に違いはありませんでした。私が望むのは、ユーザーが何を検索したかに関係なく、ブーストされた結果が検索結果の最初に表示されることです (もちろん、ドキュメントにクエリが含まれている場合)。
XML 形式で POST する場合、ドキュメント全体または特定のフィールドのブースト値を指定できることを理解しています。しかし、そうするとドキュメントの内容としてファイルを指定する方法がわかりません。実際、tika ページには部分的な例が示されています。
しかし、ここでもブーストを指定する場所/方法が明確ではありません。私は試した:
と
どちらも検索結果を変更しませんでした。
ドキュメントのコンテンツを変更せずにドキュメントのブースト属性のみを更新する方法はありますか (特定のフィールドではありません)。もしそうなら、私は2つのステップで私の目標を達成することができます.
apache - Apache Solr を使用して抽出されたテキストを取得する
私はApache Solrを初めて使用し、pdfファイルのインデックス作成に使用したいと考えています。これまでのところなんとか起動して実行でき、追加されたpdfファイルを検索できるようになりました。
ただし、結果から検索されたテキストを取得できる必要があります。
まさにそれに関するデフォルトのsolrconfig.xmlにxmlスニペットが見つかりました:
ここから得た情報 (http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika) から、schema.xml に新しいフィールドを追加する必要があると思います (たとえば、"content") には、store="true" および index="true" が含まれています。しかし、これを正確に達成する方法が本当にわかりませんか?
助けていただければ幸いです、thx
java - Javaでドキュメント構造を解析する
Javaを使用して、特定のテキストドキュメントからツリーのような構造を取得する必要があります。使用されるファイルタイプは一般的でオープンである必要があります(rtf、odt、...)。現在、Apache Tikaを使用して、複数のドキュメントからプレーンテキストを解析しています。
正しい構造を最も確実に解析できるようにするには、どのファイルタイプとAPIを使用する必要がありますか?ティカでこれが可能なら、どんなデモンストレーションも見たいです。
たとえば、特定のドキュメントからこの種のデータを取得する必要があります。
主な見出しは論文のタイトルです。紙には、見出し1と見出し2の2つの主要な見出しがあり、両方に1つの小見出しがあります。また、各見出し(段落テキスト)の下にコンテンツを取得する必要があります。
どんな助けでも大歓迎です。
java - Javaを使用してwmaファイルのmimeタイプを見つける
オーディオ ファイルとビデオ ファイルの MIME タイプを検出するために apache tika を使用しています。何らかの理由で、tika は wma ファイル (Microsoft が所有する Windows Media Audio 形式) の MIME タイプを application/octet-stream として報告します。JavaでMIMEタイプのファイルを見つけるより良い方法を知っていますか? または、tika 自体を使用してこの情報を照会できますか?
java - ApacheTikaとドキュメントのメタデータ
Apache Tikaを使用して、さまざまなドキュメント(ODS、MS Office、PDF)の簡単な処理を行っています。私は少なくとも取得する必要があります:
これはそれほど簡単ではありません。私の戦略は、6種類のドキュメントにテンプレートメソッドパターンを使用することです。ここでは、最初にドキュメントの種類を見つけ、それに基づいて個別に処理します。
apache tikaでこれが不要になることはわかっていますが、ドキュメントの形式はまったく異なりますよね?
例えば
私はODS、MS Office、PDFドキュメントに対してこれを実行しようとしましたが、メタデータは大きく異なります。MSドキュメントのメタデータキーといくつかのDublicCoreメタデータリストを一覧表示するMSOfficeインターフェイスがあります。しかし、このようなアプリケーションをどのように実装する必要がありますか?
それを経験した人は誰でも彼の経験を共有できますか?ありがとうございました
java - 以下の ECM テクノロジーの活用方法 - 比較
理論的な質問があります。さまざまな形式 (ODS、MS オフィス、pdf、html) のドキュメントが大量にあり、ドキュメント管理システムではなく、(さまざまな言語の) ドキュメントのメタデータとデータを保持するシステムである ECM システムを実装したいと考えています。ファイルシステムとデータベース(メタデータのみ)に統合された方法(xhtml)でデータ処理(インデックス作成、検索)を行います。
どのような技術を使用し、どのように進めますか? これらは私のオプションです:
Apache Tika のみを使用 - これらのドキュメントを解析し、メタデータとデータを xhtml 形式に抽出し、インデックス作成とフルテキストに Lucene または Solr を使用します (大きな欠点はデータベースの永続性です - メタデータは大きく異なります)
TikaパーサーでApache Solrのみを使用しています-私はそれを経験していません。Apache Nutch のようなデータベース統合をサポートしていますか?
次に、Apache UIMA プロジェクトがあります。内部で何が起こっているのかを知るのは非常に困難です。
すでに Apache Tika (alfresco、apache jackrabbit) を使用している CMS を使用していますが、それらの使用経験はあまりありません。とにかく、Apache Tika 自体が処理しない (doc 対 docx または異なるメタデータ タイプ) などの問題は、彼らが既に処理していると確信しています。
Apache Tika から xhtml 形式を取得した後、eXist db のようなネイティブ XML データベースを使用することもできますが、これらのドキュメントの構造がかなりフラットであるため、それが適切な選択であるかどうかはわかりません。XML データベースは、より階層的なドキュメントの持続性を目的としています。
java - ApacheJackrabbitによるメタデータ抽出
私はAlfrescoを少し使用していましたが、ドキュメントからメタデータを抽出するために、ApacheTikaの上に薄い抽象化レイヤーがありました。
このような堅牢なソリューションは必要ないため、Jackrabbitのみを使用することにしました。しかし、jackrabbit-text-extractorsモジュールを除いて、ドキュメントメタデータ(Dublinコアプロパティ)に対する他のサポートはありません。
jackrabbit-text-extractorsmavenアーティファクトバージョン2.0以上-SNAPSHOTはSVNトランクにないようです。
誰かがどのアプローチを選ぶべきか教えてもらえますか?