無料で商用利用できる Web ページのコンテンツを解析および抽出するためのサーバー側ライブラリ (できれば PHP) を探しています。ページのコンテンツ部分の見出しと html (画像を含む) を抽出できる必要がありますが、広告や無関係なコンテンツは除外します。
Readability Parser APIは、それを行うフリーではないソフトウェアですが、私はフリーの代替手段を探しています。
何かご意見は?
無料で商用利用できる Web ページのコンテンツを解析および抽出するためのサーバー側ライブラリ (できれば PHP) を探しています。ページのコンテンツ部分の見出しと html (画像を含む) を抽出できる必要がありますが、広告や無関係なコンテンツは除外します。
Readability Parser APIは、それを行うフリーではないソフトウェアですが、私はフリーの代替手段を探しています。
何かご意見は?
私はボイラーパイプを使用しています。残念ながらJava用ですが、PHPで何も見つからない場合は、役に立つかもしれません. 明らかに完璧ではありませんが、試してみる価値はあります。また、オープンソースであるため、必要な変更を加えることができます。
いわゆる「エクストラクタ」がいくつかあるので、ニーズに最も適したものを選択できます。
使用法も非常に簡単です。例を次に示します。
URL url = new URL("http://example.com/article");
String articleText = ArticleExtractor.INSTANCE.getText(url);
Simple HTML DOMを使ってみてください 。これを使用して、かなり複雑な Web サイト用のスクレイパーを作成しました。非常にうまく機能します。
ウィキペディアのエッフェル塔の地理的位置など、ページからデータを取得する最良の方法は、jQuery DOM です。
<span class="geo-dms">
<span class="geo-lat">48°51′29″</span>
<span class="geo-lon">2°17′40″</span>
</span>
FireBug コンソールでテストしjQuery('.geo-lat').text()
ます。jQuery は JavaScript ライブラリであり、サーバー側 JavaScript Web サーバーNode.jsで得られる最良の結果です。DOM トラバースを使用した Web クロール用の優れた Node.js ソリューションが多数あります。