私はdbpedia抽出フレームワークをいじっています。とてもいい感じで、喜んでウィキペディアのページの AST を作成し、リンクを抽出しています (WikiParser を使用)。しかし、解析からは構造化されたツリーが得られますが、テキスト ノードにはまだ多くの書式設定マークアップが含まれていることに気付きました (たとえば、イタリック体、太字などに使用されるアポストロフィ)。私の目的では、これらは役に立ちません。プレーンテキストが必要なだけです。
これを取り除くために独自のコードを書くのに時間を費やすことができますが、このようなものが dbpedia に役立つだろうと推測しています - そしてそれはライブラリのどこかに存在します。私は正しいですか?もしそうなら - 裸のテキストに落とす余分な機能はどこにありますか?
それ以外の場合 - mediawiki マークアップを削除する他の (できれば scala) パッケージを知っている人はいますか?
編集
詳細についてのリクエストに応えて。次のマークアップ:
''An italicised '''bit''' of text'', <b>Some markup</b>
TextNode のコンテンツとして dbpedia を通過しますが、そのままです。私はそれを次のように削除する機能が欲しいです:
An italicised bit of text, Some markup
または、生のテキストの各セクションを表す追加のノードを含む、より構造化された AST に、おそらく (各ノードに) 適用される書式設定の種類 (イタリック体、太字など) で注釈が付けられます。
現状では、dbpedia 解析の最終結果は依然としてマークアップでいっぱいです。
それが役立つことを願っています。