4

Solr を使用して、DOC、DOCX、および PDF ファイルのインデックスを作成しています。テキストの保存を有効にして、チェックアウトしました。サンプル DOC ファイルの結果は次のとおりです。

は、英国ケンブリッジに本拠を置くモバイルユーザー インターフェイス (UI) ソフトウェア開発会社です。会社を統合した後、Qualcomm はインターフェイス マークアップ言語とそれに付随する統合開発環境 (IDE) をHYPERLINK "http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"として再ブランド化しました * \o "UiOne (ページが存在しません)" uiOne** . 2009 年 3 月、Qualcomm はケンブリッジのエンジニアリング スタッフ (主にHYPERLINK "http://en.wikipedia.org"に取り組んでいる部門) に通知しました 。

Doc には、Wikipdia からの資料が含まれています。http://pastebin.com/8FL9eHJvで完全な出力をキャプチャしました

そのため、 Solr CEl/Tikaは独自の書式設定を挿入し、書式設定の結果が検索出力に表示されます。検索結果 (テキスト スニペット) に書式が含まれないようにするには、どうすれば問題を解決できますか?

グーグルで調べてみると、TIKAにはいくつかの出力形式があることがわかりましたが、それはアプローチですか?または、結果をレンダリングする前にテキストをフィルタリングできるプラグインはありますか?

関連する詳細: 私の構成は在庫に近いです: 私のアップロード コマンドは Python のバリエーションです

curl "http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true" -F "myfile=@11qualcomm.doc"

私のschema.xml http://pastebin.com/VLz2uuDQ

私の SolrConfig.xml http://pastebin.com/X2J2jj64

4

1 に答える 1

0

検索結果の余分なハイパーリンク アイテムについてお尋ねします。はいの場合は、solrconfig.xml の抽出リクエスト ハンドルを次のように更新してみてください。

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>
于 2012-06-06T18:37:11.033 に答える