AbcPdf .netコンポーネント(バージョン7)を使用して、いくつかのPDFを処理し、メタデータを生成しようとしています。PDFドキュメントにすべてのタグをリストする方法があるかどうか疑問に思いましたか?タグ付きPDFの例として、ここでこのファイルを使用しています
PDFタグの一覧表示または抽出に使用できる他のコンポーネントまたはツールはありますか?
よろしくお願いします
AbcPdf .netコンポーネント(バージョン7)を使用して、いくつかのPDFを処理し、メタデータを生成しようとしています。PDFドキュメントにすべてのタグをリストする方法があるかどうか疑問に思いましたか?タグ付きPDFの例として、ここでこのファイルを使用しています
PDFタグの一覧表示または抽出に使用できる他のコンポーネントまたはツールはありますか?
よろしくお願いします
iTextSharpを使用します。これは無料で、必要なのは「itextsharp.dll」だけです。
http://sourceforge.net/projects/itextsharp/
これは、PDFからテキストを読み取るための簡単な関数です。
Public Shared Function GetTextFromPDF(PdfFileName As String) As String
Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)
Dim sOut = ""
For i = 1 To oReader.NumberOfPages
Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy
sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
Next
Return sOut
End Function
ITextSharpには、タグを処理するためのメソッドもあります。