ブログ投稿でうまく機能する一般化された HTML パーサーを作成しようとしています。パーサーを特定のエントリの URL に向けて、投稿自体のクリーンなテキストを取得したいと考えています。私の基本的なアプローチ (Python から) は、BeautifulSoup と Urllib2 の組み合わせを使用することでした。これは問題ありませんが、ブログ エントリの適切なタグを知っていることを前提としています。誰もがより良いアイデアを持っていますか?
誰かが拡張できるかもしれないいくつかの考えがありますが、実装するのに十分な知識/ノウハウがまだありません。
Unix プログラム 'lynx' は、ブログの投稿を特にうまく解析しているようです。彼らはどのパーサーを使用していますか?
ジャンク広告などを自動的に削除するサービス/パーサーはありますか?
この場合、ブログ投稿は通常、class="entry" などの特定の定義タグに含まれているという前提で問題ないかもしれないという漠然とした考えを持っていました。したがって、それらの間に最もきれいなテキストがある囲みタグを見つけるアルゴリズムを作成することが可能かもしれません-これに関するアイデアはありますか?
ありがとう!