PDFを解析し、そのPDFにいくつかのタグを追加して、いくつかのフォーラムにアップロードできるようにしたいと思います。私はおそらくc#(またはおそらくpython)を使用して、必要に応じてpdfを読み取ってタグを挿入することを考えていました。どこから始めればよいですか?これまでのところ、pdfをテキストファイルに変換できます。しかし、そこから私は困惑しています。これが私がこれまでに持っているものです:
/*
* Convert PDF To Text
* *******************/
using System;
using System.Collections.Generic;
using System.Drawing;
using System.Windows.Forms;
using System.Drawing.Printing;
using System.IO;
using System.Text;
using System.ComponentModel.Design;
using System.ComponentModel;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
namespace Test.iPdfToText
{
public partial class MainForm : Form
{
public MainForm()
{
InitializeComponent();
}
void Button1Click(object sender, EventArgs e)
{
PDDocument doc = PDDocument.load("C:\\pdftoText\\myPdfTest.pdf");
PDFTextStripper stripper = new PDFTextStripper();
richTextBox1.Text=(stripper.getText(doc));
}
}
}