私はApache Solrを初めて使用し、pdfファイルのインデックス作成に使用したいと考えています。これまでのところなんとか起動して実行でき、追加されたpdfファイルを検索できるようになりました。
ただし、結果から検索されたテキストを取得できる必要があります。
まさにそれに関するデフォルトのsolrconfig.xmlにxmlスニペットが見つかりました:
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler" startup="lazy">
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
ここから得た情報 (http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika) から、schema.xml に新しいフィールドを追加する必要があると思います (たとえば、"content") には、store="true" および index="true" が含まれています。しかし、これを正確に達成する方法が本当にわかりませんか?
助けていただければ幸いです、thx