html - HTML から意味のあるテキストを抽出する方法

Question

HTML ページを解析し、そこから意味のあるテキストを抽出したいと思います。これを行うための優れたアルゴリズムを知っている人はいますか?

私は Rails でアプリケーションを開発していますが、Ruby はこれで少し遅いと思います。そのため、c に適切なライブラリがあれば、それが適切だと思います。

ありがとう！！

PD: Java については何も推奨しないでください

悲しいことに、Pythonにあります

score 6 · Accepted Answer

Ruby には C 言語で高速に記述されたNokogiriを使用します。

(正規表現を使用して HTML のような再帰式を解析することは、非常に難しく、エラーが発生しやすいことで知られています。私はその道をたどりません。この問題は何度も発生するように思われるため、回答でこれについてのみ言及します。)

上記の Nokogiri のような実際のパーサーを使用すると、HTML ドキュメントの構造とロジックが保持されるという追加の利点も得られます。また、これらの手がかりが本当に必要になる場合もあります。

score 2 · Accepted Answer

Ruby と統合するソリューション

score -1 · Accepted Answer

リンクスはこれを行うことができます。あなたがそれを見たいのであれば、これはオープンソースです。

score -3 · Accepted Answer

山かっこで囲まれたすべての部分をテキストから削除してから、空白を折りたたむ必要があります。理論的には、<and>は他の場合には存在しないはずです。ページには、代わりに<andが含まれています。>

空白の縮小: すべての TAB、改行などをスペースに変換してから、すべての一連のスペースを 1 つのスペースに置き換えます。

<body>更新: そして、タグを見つけてから開始する必要があります。