php - URL と Web サイトからコンテンツを抽出する

Question

を使用してウェブサイトからコンテンツを取得しfile_get_contents()ます。

このコンテンツを取得すると、Web サイトのすべてのコンテンツとタグが表示されます。

すべてのタグではなく、一部のタグからコンテンツを抽出する必要があります。コンテンツを取得して、後で操作できるようにデータベースまたはテキストファイルに保存するのが最善だと思います。

たとえば、これを php で取得した場合file_get_contents():

<html>
    <head><script src="script.js"></head>

    <body>
        <div id="header"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="image"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="footer"></div>
    </body>
</html>

たとえば、クラスでdivのコンテンツのみを取得するにはどうすればよいitemですか? jQuery を使用することは可能ですか、それとも php を使用する必要がありますか? 多くのことを試しましたが、必要なものを抽出する方法を教えてくれるガイドまたは誰かが必要です

ありがとうございます。それでは、お元気で

score 0 · Accepted Answer

HTML を解析して必要なデータのみを抽出する最も信頼できる方法は、WebKit などの一般的なフレームワークを使用してレンダリングすることです。

PhantomJS ( http://phantomjs.org/ ) を使用してみてください。これは、Web ページを (コマンドライン経由で) レンダリングし、javascript または API を使用して操作できるプログラムです。

ファイルを保存して PhantomJS にロードし、独自の jquery $('body').('.item').each(....

php - URL と Web サイトからコンテンツを抽出する

2 に答える 2

Related

Reference