XPDFs pdftotextはpdfをテキストに変換し、コマンドラインレベルで出力します。必要に応じて、TextOutputDev.ccで指定されているようにページ間にPageBreaksを挿入します。
eopLen = uMap->mapUnicode(0x0c, eop, sizeof(eop));
このUnicodeシンボルはエンコーディングに依存-enc ASCII7
せず、変更されません。私は現在、データベースストレージ用にPDFファイルをいくつかのTXTページに変換および分割するためにPHPを使用するつもりです。ただし、次の関数は機能しますが、PDF全体を一度に変換する場合の2倍の時間がかかります。
for($i = 1; $i <= $pages[0]; $i++)
$page[$i] = shell_exec('/usr/bin/pdftotext sample.pdf -f '.$i.' -l '.$i.' -');
explode(0x0c, $wholePDF)
Unicode文字を区切り文字として使用するにはどうすればよいですか?現在、page [$ i]は、shell_exec()からこれらの奇妙なUnicodePageBreak文字を取得していないようです。エンコード用にいくつかのヘッダー(特にUTF-8)を試しましたが、今のところうまくいきませんでした。