Adobe Distiller ツールで作成された PDF ファイルからテキストを読み取るには?
私は現在 ABCPdf ツールを使用しており、pdf コンテンツを読み取るためのコード サンプルがありますが、Adobe PDF ライブラリによって作成された pdf からのテキストしか読み取ることができません。
public string ExtractTextsFromAllPages(string pdfFileName)
{
var sb = new StringBuilder();
using (var doc = new Doc())
{
doc.Read(pdfFileName);
for (var currentPageNumber = 1; currentPageNumber <= doc.PageCount; currentPageNumber++)
{
doc.PageNumber = currentPageNumber;
sb.Append(doc.GetText("Text"));
}
}
return sb.ToString();
}
Adobe Distiller によって作成された他の PDF ファイルがあり、上記のコードが機能しません。つまり、エンコードされているように見える以下の奇妙なデータを返します。
\0\a\b\0\t\n\0\r\n\0\a\b\t\n\n\b\v\f\0\t\r\f\b\0\r\0\r\n\v\b\v\f\f\n\r\0\r\0\0\0\b\r\n\0\a\r\0\0\b\r\b\b\t\n\r\0\b\r\n\t\b\v\n\b\v\v\0\a\b\r\n\r\n\v\r\0\b\b\b\v\r\0\r\n\v\f\r\f\f\r\n !\"\"\v#\t $ %&$% $'\v\"% \0( )% ! !\"\"'*$'\r\n\t $ %&$% $'\v\"% \0( \r\n\f\f\f\f\b\f\f\f\f\a \b\b\f\f\f!\"\r\n\f\a#$\f\f\f\b\f\f\a%\a \b\b\f\a\a&\a\a' \b\a\b\r\n(\f)\f)
Adobe Distiller ツールで作成された PDF ファイルからテキストを読み取るには?
他のPDFと同じように、ブラウザを使用してそのようなPDFファイルを簡単に開くことができると言われています。
ありがとう、