私は自分のWebスクレイピングプロジェクトのために、EvernoteWebClipperの解析機能をPythonで複製しようとしています。私はテキストの本文だけを抽出することに興味があり、それ以外は何も興味がありません。
私は両方のPythonArc90ポートを使用しました:
https://github.com/buriy/python-readability
aaronswの素晴らしいhtml2textライブラリと組み合わせて:
https://github.com/aaronsw/html2text
これはほとんどの場合良い結果をもたらしますが、Evernoteはテキストの本文をスクレイピングするのにはるかに優れています。
誰かがより良いアプローチを勧めてくれませんか、あるいはEvernoteが何をしているのか教えてください。
ありがとう!