php - PHPを使用してPDFからハイパーリンクを読み取るにはどうすればよいですか?

Question

いくつかのリンクを含む pdf があります。リンクはhttp://www.example.com/abcd.pdfのようにはなりません。ただし、いくつかの URL にリンクされているテキストがいくつかあります。そのURLを抽出したいだけです。

score 0 · Accepted Answer

最初に行ったように、個別に pdf 読み取りオプションを使用する必要はありません。fopen() メソッドまたは file_get_contents() メソッドを使用して、pdf ファイルを簡単に読み取ることができます。

    $pdf_content = file_get_contents($actual_pdf_file, true);
    preg_match_all('/URI\(([^,]*?)\)\/S\/URI/', $pdf_content, $matches);

私の要件に従って、この preg_match_all 関数を作成しました。リンクごとに URI があります。

$matches 配列に URL があれば取得します。私の場合、この URL は pdf ダウンロードリンクです。リンクからpdfをダウンロードするためのコードは以下のとおりです...

foreach($matches[1] as $pdfurl)
    {       
    $CurlConnect = curl_init();
    curl_setopt($CurlConnect, CURLOPT_URL, $pdfurl);
    curl_setopt($CurlConnect, CURLOPT_POST, 1);
    curl_setopt($CurlConnect, CURLOPT_RETURNTRANSFER, 1);
    @curl_setopt($CurlConnect, CURLOPT_POSTFIELDS, $request);
    $Result = curl_exec($CurlConnect);
    $new_down_pdf='new_pdf_name.pdf';
    file_put_contents($new_down_pdf,$Result);
    }

php - PHPを使用してPDFからハイパーリンクを読み取るにはどうすればよいですか?

1 に答える 1

Related

Reference