apache - Apache solrを使用してpdfのコンテンツから日付文字列を取得する方法

翻译自：https://stackoverflow.com/questions/13526091 2012-11-23T09:25:43.587

206 次

こんにちは、Apache solr は初めてです。私は次のような日付情報を含むPDFを持っています- bla bla bla 2012-11-23 11:11:12 bla bla ...-コンテンツからすべての日付を取得したい。

いくつかのドキュメント (http://wiki.apache.org/solr/ExtractingRequestHandler) を読み、date.formats を /update/extract に追加しました

 <requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <!-- All the main content goes into "text"... if you need to return
       the extracted text or do highlighting, use a stored field. -->
  <str name="fmap.content">text</str>
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
<lst name="date.formats">
  <str>yyyy-MM-dd</str>
  <str>yyyy-MM-dd'T'HH:mm:ss'Z'</str>
  <str>yyyy-MM-dd'T'HH:mm:ss</str>
  <str>yyyy-MM-dd</str>
  <str>yyyy-MM-dd hh:mm:ss</str>
  <str>yyyy-MM-dd HH:mm:ss</str>
</lst>

以下のようにpdfを追加しています

curl "http://localhost:8983/solr/update/extract?literal.id=sql.txt&uprefix=attr_&fmap.content=attr_content&commit=true"&stream.file="/home/example/example.pdf"

日付についての注意事項はありますか？とコンテンツ？

ありがとう

apache - Apache solrを使用してpdfのコンテンツから日付文字列を取得する方法

0 に答える 0

Related

Reference