php - ウィキペディアから記事の最初の段落を取得する

Question

ウィキペディアからハリウッドという単語の記事の最初の段落を取得する適切な方法は何ですか？その結果、$result変数にはページの最初の段落が含まれます

ハリウッドは、ロサンゼルスのダウンタウンの西北西に位置するアメリカ合衆国カリフォルニア州ロサンゼルスの地区です。[2] 映画スタジオや映画スターの歴史的中心地としての名声と文化的アイデンティティのために、ハリウッドという言葉はアメリカ映画の換喩としてよく使用されます。映画産業の多くは、ウェストロサンゼルス、サンフェルナンド、サンタクラリータバレーなどの周辺地域に分散していますが、編集、エフェクト、小道具、ポストプロダクション、照明会社などの重要な補助産業は、ハリウッドに残っています。パラマウントピクチャーズのバックロットを行います。

HTMLタグが含まれていれば問題ありません（プレーンテキストよりも優れています）。

score 3 · Accepted Answer

コハナが何であるかはわかりませんが、特定のウィキペディアページのHTMLテキストを取得するには、APIを使用できます。

たとえば、ハリウッドの記事の最初のセクションのHTMLを取得するには、次のようなクエリを使用します。

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse

これはXML形式ですが、JSONもオプションです。

また、これにより、最初の段落だけでなく、最初のセクション全体（インフォボックスを含む）が返されます。

score 1 · Accepted Answer

Simple HTML DOMライブラリを使用して、WebページからHTMLを簡単に解析できます。

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library

// Create DOM from URL
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood');

// Get the first paragraph
$p = $html->find('p', 0);

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...)

私はKohanaを使用したことがありませんが、Simple HTML DOM用のKohanaモジュールが少なくとも2つあるようです。したがって、プロジェクトでライブラリを簡単に使用できるはずです。

php - ウィキペディアから記事の最初の段落を取得する

2 に答える 2

Related

Reference