2

Lucene検索拡張機能(http://www.mediawiki.org/wiki/Extension_talk:Lucene-search)をmediawikiインストールに統合しています。そのすべてが本当にうまく機能していますが、luceneはすべてのmediawiki / htmlマークアップにもインデックスを付けているようで、結果に表示されています。

つまり、「緑」を検索すると、style = "background:green; color:whiteなどのマークアップを含む結果が返されます。

すべてのマークアップの検索結果を削除する方法はありますか?ウィキペディアは同じ検索プラグインを使用していると思いますが、どのように使用していますか?

4

2 に答える 2

2

Lucene でインデックスを作成する前に、未加工の Wiki マークアップを変換する必要があるでしょう。純粋な XML コンテンツを扱う場合、XSL 変換を使用し<xsl:value-of select="text()"/>てテキスト コンテンツを抽出することができます。

ウィキ マークアップではうまくいかないのではないかと心配していますが、HTML 変換後のページをキャプチャすることはできますか?

于 2009-04-23T12:15:40.050 に答える