さまざまなページのメインコンテンツを取得する必要がある、クローラーのような特別なアプリケーションを作成しています。明確にするために:私はページの本当の「肉」が必要です(当然、1つある場合)
私はさまざまなアプローチを試しました:
- 多くのページにはRSSフィードがあるので、フィードを読んでこのページ固有のコンテンツを取得できます。
- 多くのページで「コンテンツ」メタタグが使用されています
- 多くの場合、画面の中央に表示されるオブジェクトは、ページのメインの「コンテンツ」です。
ただし、これらの方法は常に機能するとは限りません。Facebookは、これを実行するだけで非常に優れた仕事をしていることに気付きました(リンクを添付したい場合は、リンクページで見つけたコンテンツが表示されます)。
それで、私が見落としたアプローチについて、何かアドバイスはありますか?
ありがとう!