htmlドキュメントのフリーテキストを抽出するためにhtmlパーサー(Neko)を使用します。私はテキストのセマンティクスに興味があるので、ブラウザに表示される単語間の距離に特に注意を払う必要があります。
例えば:
<H1>My
title</H1>
<P>Hello
World</P>
次のようにレンダリングされます:
My title
Hello world
<pre>
タグ内またはスタイル付きの段落を含む場合:
<style>
p { white-space:pre; }
</style>
結果は次のようになります。
My title
Hello
World
「こんにちは」は意味的に「世界」という言葉に結び付けられていないので、私はこれを別の方法で扱いたいと思います。他の投稿で述べたように、構文解析とレンダリングには違いがあります。明らかに解析はブラウザに表示されるように空白を折りたたむことはないので、レンダリング後に表示される単語間の接続に興味があります。
ブラウザで読み取られるときにhtmlから空白が折りたたまれたテキストを抽出する方法はありますか?