lucene - Solr CEL/Tika 出力のフォーマットは何ですか? そして、それを修正する方法は？

Question

Solr を使用して、DOC、DOCX、および PDF ファイルのインデックスを作成しています。テキストの保存を有効にして、チェックアウトしました。サンプル DOC ファイルの結果は次のとおりです。

は、英国ケンブリッジに本拠を置くモバイルユーザーインターフェイス (UI) ソフトウェア開発会社です。会社を統合した後、Qualcomm はインターフェイスマークアップ言語とそれに付随する統合開発環境 (IDE) をHYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"として再ブランド化しました * \o "UiOne (ページが存在しません)" uiOne** . 2009 年 3 月、Qualcomm はケンブリッジのエンジニアリングスタッフ (主にHYPERLINK "http://en.wikipedia.org"に取り組んでいる部門) に通知しました。

Doc には、Wikipdia からの資料が含まれています。http://pastebin.com/8FL9eHJvで完全な出力をキャプチャしました

そのため、 Solr CEl/Tikaは独自の書式設定を挿入し、書式設定の結果が検索出力に表示されます。検索結果 (テキストスニペット) に書式が含まれないようにするには、どうすれば問題を解決できますか?

グーグルで調べてみると、TIKAにはいくつかの出力形式があることがわかりましたが、それはアプローチですか？または、結果をレンダリングする前にテキストをフィルタリングできるプラグインはありますか?

関連する詳細: 私の構成は在庫に近いです: 私のアップロードコマンドは Python のバリエーションです

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

私のschema.xml http://pastebin.com/VLz2uuDQ

私の SolrConfig.xml http://pastebin.com/X2J2jj64

score 0 · Accepted Answer

検索結果の余分なハイパーリンクアイテムについてお尋ねします。はいの場合は、solrconfig.xml の抽出リクエストハンドルを次のように更新してみてください。

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

lucene - Solr CEL/Tika 出力のフォーマットは何ですか? そして、それを修正する方法は？

1 に答える 1

Related

Reference