Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。
HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。
追加情報:
テキスト文書間の類似性を計算するために必要です。
どんな助けでも大歓迎です。ありがとう