0

tika1.2 で solr3.6 を使用していますが、pdf ファイルをアップロードできません。まず、solr をインストールし、exampledocs からいくつかの *.xml ファイルをアップロードします。このファイルは、この URL で検索できましhttp://localhost:8983/solr/select/?q=solrた。次のステップでは、tika をインストールして pdf および doc ファイルをアップロードしますが、機能しません。次の内容は、「example/solr/conf/solrconf.xml」ファイルにあります。

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults"><str name="fmap.content">text</str><str name="lowernames">true</str>
    <str name="uprefix">ignored_</str>
    <str name="tika.config">tika-data-config.xml</str>
    <str name="captureAttr">true</str>
    <str name="fmap.a">links</str>
    <str name="fmap.div">ignored_</str>
  </lst>
</requestHandler>`

ファイル「example/solr/conf/tika-data-config.xml」には、次の内容があります。

<dataConfig>
  <dataSource name="bin" type="BinFileDataSource" />
  <document>
    <entity name="f" dataSource="null" rootEntity="false" processor="FileListEntityProcessor" transformer="TemplateTransformer" baseDir="/home/ubuntu-user/Documents" fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)" onError="skip" recursive="true">
      <field column="fileAbsolutePath" name="path" />
      <field column="fileSize" name="size" />
      <field column="fileLastModified" name="lastmodified" /><entity name="tika-test" dataSource="bin" processor="TikaEntityProcessor" url="${f.fileAbsolutePath}" format="text" onError="skip">
      <field column="Author" name="author" meta="true"/>
      <field column="title" name="title" meta="true"/>
    </entity>

この行をコンソールに入れると

curl http://localhost:8983/solr/update/extract?literal.id=doc2&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@test.pdf"

私はこの出力を得る

<?xml version="1.0" encoding="UTF-8"?>
  <response>
    <lst name="responseHeader">
      <int name="status">0</int>
      <int name="QTime">183</int>
    </lst>
  </response>

しかし、solrでコンテンツを検索できません。この URL:http://localhost:8983/solr/browseを参照すると、新しいエントリが表示されますが、コンテンツは表示されません。

また、solr と tika サーバーを開始しました。

java -jar start.jar
java -jar tika-server-1.2.jar

誰でも私を助けることができますか?

4

3 に答える 3

1

apache-solr-dataimporthandler-3.6、apache-solr-dataimporthandler-extras-3.6、および apache-solr-cell-3.6 の jar (またはパス) を dist フォルダーに追加し、対応するファイルを contrib フォルダーに追加する必要があります。

次に、Tika サーバーを起動せずに Solr から pdf を抽出できます。

于 2012-11-13T21:25:33.840 に答える
0

リッチ ドキュメントのインデックス作成に役立つExtractingRequestHandlerを確認してください。
Solr は内部に追加されたライブラリを使用してリッチドキュメントからコンテンツを抽出できるため、別の Tika サーバーを起動する必要はありません。

必要な jar (依存関係に必要な Solr Cell および Tika Jars) は、おそらく構成内にあります:-

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" /> 
<lib dir="../../contrib/extraction/lib" regex=".*\.jar" />
于 2012-11-14T04:47:11.613 に答える
0

今、solr new をインストールしました。この URL で PDF を検索できます。

http://localhost:8983/solr/select/?q=attr_content:st*

一部のPDFは問題ありませんが、どのPDFでもこの出力が得られます

<arr name="attr_content"><str>                         ((stdin))      � ���������

attr_creation_date と attr_meta は問題ありません。プロデューサーは Ghostscript でした。GPL ゴーストスクリプト 8.63

于 2012-11-14T15:21:50.783 に答える