2

XML を Apache Solr にフィードしようとしていますが、一部の XML のテキストに HTML 形式が含まれているため、solr サーバーに投稿できません。投稿する前にドキュメントを事前にフォーマットできるため、この情報を保存できると便利なのは明らかです。しかし、エスケープすることで HTML に関する solr の問題が回避されるかどうかについては、私は見たことがないか、認識していません。XSLT を使用して XML から HTML を削除できますか?

例えば:

What I have:

<field name="description"><h1>This is a description of a doc!</h1><p> This doc contains some information</p></field>

What I need:

<field name="description">This is a description of a doc! This doc contains some information.</field>

xsl変換中にスクラブしない特定のタグのブラックリストではなく、インテリジェントな修正が必要です。タグを付けて新しいドキュメントを作成することにした場合、プログラマーが手動で追加しない限り、ブラックリストはこれを認識しないため、これは非効率的です。

HTML タグを html エンティティ (それぞれ < と > の場合は < と &gr; ) に変換しようとしましたが、後で BasicNameValuePairs 経由で HtmlPost 経由でこれを投稿しようとすると、問題が発生します。これらのエンティティを使用したくありません。

スタックオーバーフローのアイデアはありますか?

4

1 に答える 1