Web サイトからコンテンツを読み取る必要がある大学のプロジェクト (Python を使用) として Web アプリケーションを構築しています。インターネット上の任意の Web サイトである可能性があります。
最初は BeautifulSoup や lxml などのスクリーン スクレイパーを使用してコンテンツ (作成者が作成したデータ) を読み取ろうと考えましたが、Web サイトごとに異なる基準で開発されているため、1 つのロジックに基づいてコンテンツを検索することはできません。
そこでRSS/Atom(Universal Feed Parserを利用)を利用しようと思ったのですが、内容の要約しか得られませんでした!しかし、要約だけでなく、すべてのコンテンツが必要です。
では、BeautifulSoup、lxml などの lib を使用して Web サイトのコンテンツを読み取ることができる 1 つのロジックを持つ方法はありますか?
または、Web サイトが提供する API を使用する必要があります。
ブロガーのブログであれば Google Data API を使用できるので仕事は楽になりますが、問題は、同じ仕事のために異なる API ごとにコードを記述する必要があるかどうかです。
最善の解決策は何ですか?