Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。
HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。
追加情報:
テキスト文書間の類似性を計算するために必要です。
どんな助けでも大歓迎です。ありがとう
Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。
HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。
追加情報:
テキスト文書間の類似性を計算するために必要です。
どんな助けでも大歓迎です。ありがとう
HTML を正規表現で解析しないようにするために、この質問の最初の回答を強くお勧めします。その答えは、なぜそうすべきでないのかを説明するのに、私ができるよりもはるかに優れているので、私はそれを延期します.
また、正規表現を介して「手動で解析」しようとするのではなく、XML パーサーを調べる必要があることもわかります (これについては、参照されている質問とその回答を参照してください)。
テキストの類似性だけが気になる場合は、正規表現を記述してフォームのすべてのHTMLタグを</?(every|single|valid|tag)[^>]*>削除し(おそらく最初にすべての<script>.*</script>タグを削除)、すべてのコンテンツを非常に長い段落にまとめることができます。それは正規表現の悪い使い方ではありません。それが彼らの目的です。
http://docs.python.org/library/xml.dom.minidom.htmlをお勧めしますが、インターフェイスが非常に扱いにくい場合があります。また、階層構造にアクセスする必要はなく、テキストだけにアクセスする必要があります。そうでなければ、パーサーは正規表現よりも優れています(そうでなければひどい考えになります)。