問題タブ [apache-tika]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1384 参照

solr - solr tika 抽出問題

私は dataimporthandler で tika を使用しています。完全インポートの実行中に、次のエラーが発生します。

solrconfig.xml で、構成パラメーターを次のように記述します

どこが間違っていますか?助けてくれませんか。私はこれを長い間探しています。

0 投票する
1 に答える
956 参照

tex - Tika を使用して .tex ファイルからテキストを抽出する

.texApache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。

Tika はコンテンツ タイプを正しく検出できますが、application/x-texそこから何も抽出しません。

コマンドを試してみました

また、次のコード スニペット:

0 投票する
1 に答える
1781 参照

java - ApacheTikaコンパイルエラー

Apache Tikaをdebianで最新バージョンをコンパイルすると、このエラーが発生します。どんな助けでもありがたいです。

tika.apache.org/download.htmlから最新バージョンをダウンロードしました。適性を持ってインストールされたMaven。私はdebianを使用しています。また、sun-java6-jdkもインストールしています。JAVA_HOME変数を設定します。次に、ベースのtikaフォルダーに移動し、「mvncleaninstall」を実行します。さらに興味深いのは、数日前に別のDebianサーバーに問題なくインストールできたことです。

0 投票する
2 に答える
19177 参照

java - Java の Apache Tika で HTML パーサーを使用して、すべての HTML タグを抽出するにはどうすればよいですか?

tika-core および tika-parser ライブラリをダウンロードしましたが、HTML ドキュメントを文字列に解析するサンプル コードが見つかりませんでした。Web ページのソースのすべての html タグを削除する必要があります。私に何ができる?Apache Tika を使用してコーディングするにはどうすればよいですか?

0 投票する
2 に答える
1047 参照

java - HTMLを文字列に解析するためにtikaパーサーを使用しましたが、ライブラリやjdeveloperのエラーなどの問題に直面しました。

まず、tika-bundle-0.9.jarをダウンロードする必要がありますが、見つかりません。Seconly、私はこれらを書きました

エラー

また、tika-bundle-0.9.jarを除くすべての必要なライブラリを追加したと言わざるを得ません。tika-bundle-0.9.jarが原因でいくつかの問題が発生しますか?tika-bundle-0.9.jarを見つけるにはどうすればよいですか?解決策が見つかりません。

ありがとう

0 投票する
1 に答える
3319 参照

java - 不明なコンテンツタイプのドキュメントからテキストを抽出する

application/octet-streamApache Tika内に型のパーサーはありますか?解析できないストリームだと思います。

ODSドキュメント、MSドキュメント、PDFファイルを解析するだけです。new Tika( ).parseToString(file); それで十分のよう です。しかし、コンテンツタイプが検出されない場合に何が起こるか理解できません->application/octet-streamがデフォルトです。それらのタイプの1つであるドキュメントからテキストを抽出する機会がありますが、contentType検出器がそれらのタイプを検出しなかった場合。

サポートされている形式ではないことをユーザーに通知する代わりに、他に何を試す必要がありますか。

それとも、結果として得られるapplication/octet-streamコンテンツタイプは、これを読み取ることができないシグナルですか?または「これに対処する方法を自分で理解する必要があります」?

0 投票する
4 に答える
37363 参照

java - コンテンツタイプからファイル拡張子を取得するには?

私は Apache Tika を使用しており、コンテンツ タイプを反映する拡張子を持つように名前を変更する必要がある特定のコンテンツ タイプのファイル (拡張子なし) があります。

コンテンツ タイプ名に基づいてゼロからプログラミングする代わりに、何か使用できるものがあるかどうか考えてみてください。

0 投票する
2 に答える
81 参照

parsing - ドキュメントが記事かどうかを判断するにはどうすればよいですか?

アルゴリズム/ライブラリ/tika config/nekohtml フィルターがどのアルゴリズム/ライブラリ/tika config/nekohtml フィルターでどれが「記事」で、どれがそうでないかを X 文書化しているとします。 )。

記事とは、少なくとも 1 つの段落を構成する構造化されたテキストの塊を意味し、ほとんどの人間の読者はそれらを除外できると思います。

私が考えた最も簡単な方法は、doclength > Y を確保することです。ここで、Y はたとえば 350 語になります。しかし、これは最も信頼できる方法ではありません。たとえば、リストが非常に長くなる可能性があり、記事のテキストが得られないからです。探している

タグ、十分ではありません。

0 投票する
1 に答える
1943 参照

solr - Solr 3.1 で Tika 0.9 を構成する方法

Solr 3.1 で Tika 0.9 を構成する手順を教えてください。

これはsolrconfig.xmlで使用して構成します

ありがとう、

0 投票する
1 に答える
164 参照

solr - Solr3.1はファイルのインデックスを作成しません

Apache tika0.9を使用してSolr3.1を正常に構成しました。Schema.xml(デフォルトのスキーマ)およびsolrconfig.xmlファイルを変更しません。

私はこのコマンドをブラウザに渡しました:

出力:

しかし、 http:// localhost:8080 / solr / admin / からを使用して検索すると、レコードが表示されません。

その上で私を助けてください

ありがとうDhaval、