linux - tika1.2 で apache solr3.6 を構成する

Question

tika1.2 で solr3.6 を使用していますが、pdf ファイルをアップロードできません。まず、solr をインストールし、exampledocs からいくつかの *.xml ファイルをアップロードします。このファイルは、この URL で検索できましhttp://localhost:8983/solr/select/?q=solrた。次のステップでは、tika をインストールして pdf および doc ファイルをアップロードしますが、機能しません。次の内容は、「example/solr/conf/solrconf.xml」ファイルにあります。

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults"><str name="fmap.content">text</str><str name="lowernames">true</str>
    <str name="uprefix">ignored_</str>
    <str name="tika.config">tika-data-config.xml</str>
    <str name="captureAttr">true</str>
    <str name="fmap.a">links</str>
    <str name="fmap.div">ignored_</str>
  </lst>
</requestHandler>`

ファイル「example/solr/conf/tika-data-config.xml」には、次の内容があります。

<dataConfig>
  <dataSource name="bin" type="BinFileDataSource" />
  <document>
    <entity name="f" dataSource="null" rootEntity="false" processor="FileListEntityProcessor" transformer="TemplateTransformer" baseDir="/home/ubuntu-user/Documents" fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)" onError="skip" recursive="true">
      <field column="fileAbsolutePath" name="path" />
      <field column="fileSize" name="size" />
      <field column="fileLastModified" name="lastmodified" /><entity name="tika-test" dataSource="bin" processor="TikaEntityProcessor" url="${f.fileAbsolutePath}" format="text" onError="skip">
      <field column="Author" name="author" meta="true"/>
      <field column="title" name="title" meta="true"/>
    </entity>

この行をコンソールに入れると

curl http://localhost:8983/solr/update/extract?literal.id=doc2&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@test.pdf"

私はこの出力を得る

<?xml version="1.0" encoding="UTF-8"?>
  <response>
    <lst name="responseHeader">
      <int name="status">0</int>
      <int name="QTime">183</int>
    </lst>
  </response>

しかし、solrでコンテンツを検索できません。この URL:http://localhost:8983/solr/browseを参照すると、新しいエントリが表示されますが、コンテンツは表示されません。

また、solr と tika サーバーを開始しました。

java -jar start.jar
java -jar tika-server-1.2.jar

誰でも私を助けることができますか？

score 1 · Accepted Answer

apache-solr-dataimporthandler-3.6、apache-solr-dataimporthandler-extras-3.6、および apache-solr-cell-3.6 の jar (またはパス) を dist フォルダーに追加し、対応するファイルを contrib フォルダーに追加する必要があります。

次に、Tika サーバーを起動せずに Solr から pdf を抽出できます。

score 0 · Accepted Answer

リッチドキュメントのインデックス作成に役立つExtractingRequestHandlerを確認してください。
Solr は内部に追加されたライブラリを使用してリッチドキュメントからコンテンツを抽出できるため、別の Tika サーバーを起動する必要はありません。

必要な jar (依存関係に必要な Solr Cell および Tika Jars) は、おそらく構成内にあります:-

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" /> 
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />

score 0 · Accepted Answer

今、solr new をインストールしました。この URL で PDF を検索できます。

http://localhost:8983/solr/select/?q=attr_content:st*

一部のPDFは問題ありませんが、どのPDFでもこの出力が得られます

<arr name="attr_content"><str>                         ((stdin))      � ���������

attr_creation_date と attr_meta は問題ありません。プロデューサーは Ghostscript でした。GPL ゴーストスクリプト 8.63

linux - tika1.2 で apache solr3.6 を構成する

3 に答える 3

Related

Reference