-2

を使用してウェブサイトからコンテンツを取得しfile_get_contents()ます。

このコンテンツを取得すると、Web サイトのすべてのコンテンツとタグが表示されます。

すべてのタグではなく、一部のタグからコンテンツを抽出する必要があります。コンテンツを取得して、後で操作できるようにデータベースまたはテキスト ファイルに保存するのが最善だと思います。

たとえば、これを php で取得した場合file_get_contents():

<html>
    <head><script src="script.js"></head>

    <body>
        <div id="header"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="image"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="footer"></div>
    </body>
</html>

たとえば、クラスでdivのコンテンツのみを取得するにはどうすればよいitemですか? jQuery を使用することは可能ですか、それとも php を使用する必要がありますか? 多くのことを試しましたが、必要なものを抽出する方法を教えてくれるガイドまたは誰かが必要です

ありがとうございます。それでは、お元気で

4

2 に答える 2

0

HTML を解析して必要なデータのみを抽出する最も信頼できる方法は、WebKit などの一般的なフレームワークを使用してレンダリングすることです。

PhantomJS ( http://phantomjs.org/ ) を使用してみてください。これは、Web ページを (コマンド ライン経由で) レンダリングし、javascript または API を使用して操作できるプログラムです。

ファイルを保存して PhantomJS にロードし、独自の jquery $('body').('.item').each(....

于 2013-06-17T15:54:23.757 に答える