php - PHP：Webサイトのソースページからコンテンツを抽出したりデータセットを取得したりする方法

Question

phpを使用してWebサイトからソースコードのコンテンツを取得する方法を知りたいです。http://simplehtmldom.sourceforge.net/を使用してみましたが、PHPでHTML / XMLをどのように解析および処理しますか？私はまだソースコードから情報を取得しようとするのに苦労しています。ご覧のとおり、ソースコードのメインページには、年と書かれた本の数を含む著者のリンクリストが含まれています。

<div id="fleft">
    <ul>
    <li><a href="http://www.books.com/john-smith/index.html">John Smith (2011-2012)</a> : 11 books
    <li><a href="http://www.books.com/bobby-bob/index.html">Bobby Bob (2011-2012)</a> : 89 books
    ....
    </ul>
    </div>

ジョン・スミスをクリックすると、ジョン・スミスが書いた本のリストが開きます。

 <h1>John Smith (11 Books)</h1>
    <div id="fleft">

    <ul>
    <li><a href="http://www.books.com/john-smith/best-book.html">Best Book</a>
    <li><a href="http://www.books.com/john-smith/other-best-book.html">Other Best Book</a>
....
    </ul>
    </div>

「最高の本」という本の1つをクリックすると、その本のタイトルと、その本の全貌が表示されます。

<div id="bookbox">
<h1>Book : Best Book</h1>

<h2>Aurther : John Smith</h2>
<pre>
story of the best book......
.......
....
the end
</pre>

著者名とその年、本のリスト、本の内容をすべて把握できるようにしたいと思います。実際にはデータセットとして。誰かが私を助けたり、これを実現するためのphpのコードサンプルを見せてもらえますか？著者の名前、生年月日、作成した本、本のタイトル、カテゴリ、本の内容などの情報のデータベースを作成したいと思います。

score 1 · Accepted Answer

ターゲットページの html を取得するために使用しているアプローチについて言及する必要があります。 $targetHTML 変数にターゲットページの html があるとします。

このようにdomにロードできます

/*********** Load In Dom *********/
$html = new DOMDocument;
$html->loadHTML($targetHTML);
$xPath = new DOMXPath($html);
/*********** Load In Dom *********/

xpath を使用して、dom にロードされた html から目的のデータを取得できます。

このアプローチをすでに使用している場合は、コードを表示して問題を見つけることができます。

よろしく

php - PHP：Webサイトのソースページからコンテンツを抽出したりデータセットを取得したりする方法

1 に答える 1

Related

Reference