1

Web サイトからコンテンツを読み取る必要がある大学のプロジェクト (Python を使用) として Web アプリケーションを構築しています。インターネット上の任意の Web サイトである可能性があります。

最初は BeautifulSoup や lxml などのスクリーン スクレイパーを使用してコンテンツ (作成者が作成したデータ) を読み取ろうと考えましたが、Web サイトごとに異なる基準で開発されているため、1 つのロジックに基づいてコンテンツを検索することはできません。

そこでRSS/Atom(Universal Feed Parserを利用)を利用しようと思ったのですが、内容の要約しか得られませんでした!しかし、要約だけでなく、すべてのコンテンツが必要です。

では、BeautifulSoup、lxml などの lib を使用して Web サイトのコンテンツを読み取ることができる 1 つのロジックを持つ方法はありますか?

または、Web サイトが提供する API を使用する必要があります。

ブロガーのブログであれば Google Data API を使用できるので仕事は楽になりますが、問題は、同じ仕事のために異なる API ごとにコードを記述する必要があるかどうかです。

最善の解決策は何ですか?

4

2 に答える 2

7

Web サイトのパブリック API が存在する場合は、それを使用することが最善の解決策です。それこそが API が存在する理由であり、ウェブサイト管理者が「私たちのコンテンツを使用する」と言う方法です。スクレイピングはある日は機能し、次の日には機能しなくなる可能性があり、コンテンツの再利用に対する Web サイト管理者の同意を意味するものではありません。

于 2012-06-16T05:44:34.430 に答える
0

コンテンツ抽出ライブラリを調べることができます-私はフルテキストRSS(php)とBoilerpipe(java)を使用しました。
どちらもWebサービスを利用できるため、要件を満たしているかどうかを簡単にテストできます。また、自分でダウンロードして実行し、個々のサイトでの動作をさらに変更することもできます。

于 2012-06-17T08:59:11.937 に答える