python - Web サイトからデータを読み取るためにスクリーンスクレイパーまたは API を使用する必要がありますか

Question

Web サイトからコンテンツを読み取る必要がある大学のプロジェクト (Python を使用) として Web アプリケーションを構築しています。インターネット上の任意の Web サイトである可能性があります。

最初は BeautifulSoup や lxml などのスクリーンスクレイパーを使用してコンテンツ (作成者が作成したデータ) を読み取ろうと考えましたが、Web サイトごとに異なる基準で開発されているため、1 つのロジックに基づいてコンテンツを検索することはできません。

そこでRSS/Atom（Universal Feed Parserを利用）を利用しようと思ったのですが、内容の要約しか得られませんでした！しかし、要約だけでなく、すべてのコンテンツが必要です。

では、BeautifulSoup、lxml などの lib を使用して Web サイトのコンテンツを読み取ることができる 1 つのロジックを持つ方法はありますか?

または、Web サイトが提供する API を使用する必要があります。

ブロガーのブログであれば Google Data API を使用できるので仕事は楽になりますが、問題は、同じ仕事のために異なる API ごとにコードを記述する必要があるかどうかです。

最善の解決策は何ですか？

score 7 · Accepted Answer

Web サイトのパブリック API が存在する場合は、それを使用することが最善の解決策です。それこそが API が存在する理由であり、ウェブサイト管理者が「私たちのコンテンツを使用する」と言う方法です。スクレイピングはある日は機能し、次の日には機能しなくなる可能性があり、コンテンツの再利用に対する Web サイト管理者の同意を意味するものではありません。

score 0 · Accepted Answer

コンテンツ抽出ライブラリを調べることができます-私はフルテキストRSS（php）とBoilerpipe（java）を使用しました。
どちらもWebサービスを利用できるため、要件を満たしているかどうかを簡単にテストできます。また、自分でダウンロードして実行し、個々のサイトでの動作をさらに変更することもできます。

python - Web サイトからデータを読み取るためにスクリーン スクレイパーまたは API を使用する必要がありますか

2 に答える 2

Related

Reference

python - Web サイトからデータを読み取るためにスクリーンスクレイパーまたは API を使用する必要がありますか