php - Web ページのコンテンツを抽出するサーバー側ライブラリ

Question

無料で商用利用できる Web ページのコンテンツを解析および抽出するためのサーバー側ライブラリ (できれば PHP) を探しています。ページのコンテンツ部分の見出しと html (画像を含む) を抽出できる必要がありますが、広告や無関係なコンテンツは除外します。

Readability Parser APIは、それを行うフリーではないソフトウェアですが、私はフリーの代替手段を探しています。

何かご意見は？

score 1 · Accepted Answer

私はボイラーパイプを使用しています。残念ながらJava用ですが、PHPで何も見つからない場合は、役に立つかもしれません. 明らかに完璧ではありませんが、試してみる価値はあります。また、オープンソースであるため、必要な変更を加えることができます。

いわゆる「エクストラクタ」がいくつかあるので、ニーズに最も適したものを選択できます。

使用法も非常に簡単です。例を次に示します。

URL url = new URL("http://example.com/article");
String articleText = ArticleExtractor.INSTANCE.getText(url);

score 0 · Accepted Answer

Simple HTML DOMを使ってみてください。これを使用して、かなり複雑な Web サイト用のスクレイパーを作成しました。非常にうまく機能します。

score 0 · Accepted Answer

ウィキペディアのエッフェル塔の地理的位置など、ページからデータを取得する最良の方法は、jQuery DOM です。

<span class="geo-dms">
    <span class="geo-lat">48°51′29″&lt;/span>
    <span class="geo-lon">2°17′40″&lt;/span>
</span>

FireBug コンソールでテストしjQuery('.geo-lat').text()ます。jQuery は JavaScript ライブラリであり、サーバー側 JavaScript Web サーバーNode.jsで得られる最良の結果です。DOM トラバースを使用した Web クロール用の優れた Node.js ソリューションが多数あります。

php - Web ページのコンテンツを抽出するサーバー側ライブラリ

3 に答える 3

Related

Reference