問題タブ [apache-tika]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - solr tika 抽出問題
私は dataimporthandler で tika を使用しています。完全インポートの実行中に、次のエラーが発生します。
solrconfig.xml で、構成パラメーターを次のように記述します
どこが間違っていますか?助けてくれませんか。私はこれを長い間探しています。
tex - Tika を使用して .tex ファイルからテキストを抽出する
.tex
Apache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。
Tika はコンテンツ タイプを正しく検出できますが、application/x-tex
そこから何も抽出しません。
コマンドを試してみました
また、次のコード スニペット:
java - ApacheTikaコンパイルエラー
Apache Tikaをdebianで最新バージョンをコンパイルすると、このエラーが発生します。どんな助けでもありがたいです。
tika.apache.org/download.htmlから最新バージョンをダウンロードしました。適性を持ってインストールされたMaven。私はdebianを使用しています。また、sun-java6-jdkもインストールしています。JAVA_HOME変数を設定します。次に、ベースのtikaフォルダーに移動し、「mvncleaninstall」を実行します。さらに興味深いのは、数日前に別のDebianサーバーに問題なくインストールできたことです。
java - Java の Apache Tika で HTML パーサーを使用して、すべての HTML タグを抽出するにはどうすればよいですか?
tika-core および tika-parser ライブラリをダウンロードしましたが、HTML ドキュメントを文字列に解析するサンプル コードが見つかりませんでした。Web ページのソースのすべての html タグを削除する必要があります。私に何ができる?Apache Tika を使用してコーディングするにはどうすればよいですか?
java - HTMLを文字列に解析するためにtikaパーサーを使用しましたが、ライブラリやjdeveloperのエラーなどの問題に直面しました。
まず、tika-bundle-0.9.jarをダウンロードする必要がありますが、見つかりません。Seconly、私はこれらを書きました
エラー
また、tika-bundle-0.9.jarを除くすべての必要なライブラリを追加したと言わざるを得ません。tika-bundle-0.9.jarが原因でいくつかの問題が発生しますか?tika-bundle-0.9.jarを見つけるにはどうすればよいですか?解決策が見つかりません。
ありがとう
java - 不明なコンテンツタイプのドキュメントからテキストを抽出する
application/octet-stream
Apache Tika内に型のパーサーはありますか?解析できないストリームだと思います。
ODSドキュメント、MSドキュメント、PDFファイルを解析するだけです。new Tika( ).parseToString(file);
それで十分のよう です。しかし、コンテンツタイプが検出されない場合に何が起こるか理解できません->application/octet-stream
がデフォルトです。それらのタイプの1つであるドキュメントからテキストを抽出する機会がありますが、contentType検出器がそれらのタイプを検出しなかった場合。
サポートされている形式ではないことをユーザーに通知する代わりに、他に何を試す必要がありますか。
それとも、結果として得られるapplication/octet-stream
コンテンツタイプは、これを読み取ることができないシグナルですか?または「これに対処する方法を自分で理解する必要があります」?
java - コンテンツタイプからファイル拡張子を取得するには?
私は Apache Tika を使用しており、コンテンツ タイプを反映する拡張子を持つように名前を変更する必要がある特定のコンテンツ タイプのファイル (拡張子なし) があります。
コンテンツ タイプ名に基づいてゼロからプログラミングする代わりに、何か使用できるものがあるかどうか考えてみてください。
parsing - ドキュメントが記事かどうかを判断するにはどうすればよいですか?
アルゴリズム/ライブラリ/tika config/nekohtml フィルターがどのアルゴリズム/ライブラリ/tika config/nekohtml フィルターでどれが「記事」で、どれがそうでないかを X 文書化しているとします。 )。
記事とは、少なくとも 1 つの段落を構成する構造化されたテキストの塊を意味し、ほとんどの人間の読者はそれらを除外できると思います。
私が考えた最も簡単な方法は、doclength > Y を確保することです。ここで、Y はたとえば 350 語になります。しかし、これは最も信頼できる方法ではありません。たとえば、リストが非常に長くなる可能性があり、記事のテキストが得られないからです。探している
タグ、十分ではありません。
solr - Solr 3.1 で Tika 0.9 を構成する方法
Solr 3.1 で Tika 0.9 を構成する手順を教えてください。
これはsolrconfig.xmlで使用して構成します
ありがとう、
solr - Solr3.1はファイルのインデックスを作成しません
Apache tika0.9を使用してSolr3.1を正常に構成しました。Schema.xml(デフォルトのスキーマ)およびsolrconfig.xmlファイルを変更しません。
私はこのコマンドをブラウザに渡しました:
出力:
しかし、 http:// localhost:8080 / solr / admin / から:を使用して検索すると、レコードが表示されません。
その上で私を助けてください
ありがとうDhaval、