0

正規表現を使用して.pdfファイル名のスペースを認識したい

これまでのところ、ファイルへのsrcリンクを認識できましたが、ファイル名のスペースを認識しません。

   <?php
   echo "<h1>Reading content from ITM website!</h1>";
   $ch = curl_init("http://domain.edu/index.php?option=com_content&view=article&id=58&Itemid=375&alias=lms");
   $fp = fopen("example_homepage.txt", "w");

   curl_setopt($ch, CURLOPT_FILE, $fp);
   curl_setopt($ch, CURLOPT_HEADER, 0);

   curl_exec($ch);
   curl_close($ch);
   $my_file="example_homepage.txt";
   $handle = fopen($my_file, 'rb');
   $data = fread($handle,filesize($my_file));

   $contents = strstr(file_get_contents('example_homepage.txt'), 'More quick links');
   $new_content = str_replace('<a href="', '<a href="http://www.domain.edu', $contents);
   $regex = '@((https?://)?([-\w]+\.[-\w\.]+)+\w(:\d+)?(/([-\w/_\.\,]*(\?\S+)?)?)*)@';
   $text = preg_replace($regex, '<a href="$1">$1</a>', $new_content);
   //echo $new_content;
   echo $text;
   fclose($fp);
   ?>

現在の出力:

http://www.domain.edu/academiccalendar/Notice for final practical.pdf" target="_blank">Title

この「最終的なpractical.pdfの通知」では、URLとして表示されず、テキストとして表示されます。

4

2 に答える 2

2

実際、画面のスクレイピングに正規表現を使用しないでください。それは遅く、最終的には壊れます。代わりに、DOMパーサーまたは単にDOMDocumentを使用してください

<?php 
//curl bit
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, "http://itmindia.edu/index.php?option=com_content&view=article&id=58&Itemid=375&alias=lms");
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_TIMEOUT, 30);
$site = curl_exec($curl);
curl_close($curl);



$dom = new DOMDocument();
@$dom->loadHTML($site);

$ret=array();
foreach($dom->getElementsByTagName('a') as $links) {
    //Is pdf
    if(substr($links->getAttribute('href'),-3) == 'pdf'){
        //Assign
        $url   = $links->getAttribute('href');
        $title = trim($links->nodeValue);
        $ret[]=array('url'=>'http://itmindia.edu'.$url,
                     'title'=>(empty($title)?basename($url):$title));
    }
}

print_r($ret);
/* Result
Array
(
    [0] => Array
        (
            [url] => http://itmindia.edu/images/ITM/pdf/ITMU bro june.pdf
            [title] => ITMU Brochure
        )

    [1] => Array
        (
            [url] => http://itmindia.edu/images/ITM/pdf/Report_2012_LR.pdf
            [title] => Annual Report to UGC July 2012
        )

    [2] => Array
        (
            [url] => http://itmindia.edu/admission2012/PhDwinter/Ph. D. application form 2012-13 for dec 2012 admission.pdf
            [title] => Application Form
        )

    [3] => Array
        (
            [url] => http://itmindia.edu/admission2012/PhDwinter/UF_Application_Form.pdf
            [title] => University Fellowship Form
        )
        ...
        ...
*/

//Then to output
foreach($ret as $v){
    echo '<a href="'.$v['url'].'" target="_blank">'.$v['title'].'</a>';
}
?>
于 2012-11-03T15:18:49.010 に答える
1

あなたに必要なのは

echo "<h1>Reading content from ITM website!</h1>";
$ch = curl_init("http://itmindia.edu/index.php?option=com_content&view=article&id=58&Itemid=375&alias=lms");
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);

libxml_use_internal_errors(true);
$dom = new DOMDocument();
$dom->loadHTML($result);
foreach ( $dom->getElementsByTagName('a') as $links ) {
    if (pathinfo($links->getAttribute('href'), PATHINFO_EXTENSION) == "pdf") {
        printf("<a href=\"http://itmindia.edu/%s\">%s</a><br />", $links->getAttribute('href'), $links->nodeValue);
    }
}
于 2012-11-03T15:37:36.053 に答える