コンテンツを抽出したい PDF ドキュメントがあります。私が抱えている問題はこれです... IMEI キーワードを検索すると見つかりますが、ループの次の項目である実際の IMEI 値が必要です。
PDF では、値は次のようになります: IMEI 90289393092
以下のスクリプトで値を返します: -0.1 -8.8 9.8 -0.1 446.7 403.9 Tm (IMEI:) Tj
値が欲しいだけです:90289393092
私が使用しているスクリプト:
Add-Type -Path .\itextsharp.dll
$reader = New-Object iTextSharp.text.pdf.pdfreader -ArgumentList "$pwd\PDF\DOC001.pdf"
for ($page = 1; $page -le $reader.NumberOfPages; $page++) {
$lines = [char[]]$reader.GetPageContent($page) -join "" -split "`n"
foreach ($line in $lines) {
if ($line -match "IMEI") {
$line = $line -replace "\\([\S])", $matches[1]
$line -replace "^\[\(|\)\]TJ$", "" -split "\)\-?\d+\.?\d*\(" -join ""
}
}
}