1

さまざまな種類のブログからデータを抽出したいので、さまざまな方法でそれを実行していました。

  1. ユーザー認証が必要なAPI
  2. XML RPC (どれがサポートしているかは不明)
  3. RSS (ここでも、どのブログがそれをサポートしているかはわかりません。また、サポートしているとしても、RSS フィードからどれだけ取得できるかはわかりません。)
  4. 原子

これは厳密にプログラミングに関連する質問ではないことはわかっていますが、何を使用すればよいのか、どちらがより適切なのかについて多くの混乱があるため、質問を進めました。

認証のさまざまな実装に取り​​組む必要があるだけでなく、さまざまな API の制限にも対処する必要があるため、Authentication で API を使用しないことをお勧めします。

4

2 に答える 2

2

RSSは、使用されるようになった最も古いものです。それには制限があります。Atomは、RSSの制限を克服して、Atomの代わりになるように設計されました。Atomは、XMLRPCの特殊な形式にすぎません。言い換えれば、XML RPCには他にも用途があり、Atomは必要なバリエーションです。上記はすべてAPIの一種です。したがって、理想的には、RSSとAtomをサポートすることです。残念ながら、AtomとRSSには下位互換性がありません。「アトム」に関するウィキペディアを引用するには:

特に、多くのブログやWikiサイトはAtom形式のWebフィードを提供しています。

@porneLのソリューションは(現時点では)推奨されていません。<article>ただし、将来的には、新しいタグなどのブロックに与えられるセマンティックな意味を改善するために、HTMLマークアップが変更されるように設定されています。これは、ドキュメントを解析するためのさらに別の方法になります。それは最も用途が広いでしょうが、私の意見では、ほとんどのサイトではないにしても多くのサイトが「タグスープ」症候群に苦しんでいるため、信頼できるようになるまでには非常に長い時間がかかります。

于 2013-03-15T08:39:19.073 に答える
1

最も普遍的な「標準」は、HTML のクロールと解析です。

wget -m http://example.com/

どれだけ正確にそれを行うかは、何を達成しようとしているのか、どの程度普遍的になりたいのかによって異なります.

可読性が使用するのと同様のヒューリスティックを使用して、サイト上の記事を見つけることができます。人気のあるブログ プラットフォームを検出して特別なケースに収めることができます。

于 2013-03-15T10:08:22.417 に答える