19

バックグラウンドでWebサイトのコンテンツをスクレイピングし、そのスクレイピングされたWebサイトから限られたコンテンツを取得したいプロジェクトを開発しています。たとえば、私のページには「userid」フィールドと「password」フィールドがあり、それらを使用してメールにアクセスし、受信トレイの内容をスクレイピングしてページに表示します。

私はjavascriptのみを使用して上記を行いました。しかし、サインイン ボタンをクリックすると、ページの URL ( http://localhost/web/Login.html ) が URL ( http://mail.in.com/mails/inbox.php?nomail= ) に変更されます。 ... .) 私は削​​られます。ただし、URL を変更せずに詳細を破棄します。

4

4 に答える 4

40

Definitely go with PHP Simple HTML DOM Parser. It's fast, easy and super flexible. It basically sticks an entire HTML page in an object then you can access any element from that object.

Like the example of the official site, to get all links on the main Google page:

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images 
foreach($html->find('img') as $element) 
       echo $element->src . '<br>';

// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';
于 2009-02-27T11:18:09.137 に答える
0

OutWit Hub を試しましたか? それは完全なスクレイピング環境です。構造を推測させたり、独自のスクレーパーを開発させたりできます。ぜひご覧になることをお勧めします。それは私の人生をずっとシンプルにしました。ZR

于 2011-03-06T09:38:46.410 に答える
0

PHP の cURL 拡張機能を使用して、PHP ページ スクリプト内から別の Web サイトへの HTTP 要求を実行できます。こちらのドキュメントを参照してください。

もちろん、ここでの欠点は、ユーザーに完全なページ/出力を表示する前に外部 Web サイトをスクレイピングする必要があるため、サイトの応答が遅くなることです。

于 2009-02-25T06:11:17.033 に答える