c# - スキャナーで作成された PDF をプログラムで個別の PDF ドキュメントに分割する

Question

スキャナーからの PDF ドキュメントがあります。この PDF には、1 日の作業のためにスタッフが記入および署名したフォームが含まれています。すべてのフォームタイプに OCR テキスト用のバーコードまたは標準領域を配置して、フォームタイプに基づいてバッチスキャンをプログラムで個別の PDF ドキュメントに分割できるようにしたいと考えています。

Microsoft .net 2.0 でこれを行いたい

利用可能なオープンソースの名前空間/dll がない場合は、必要な Adobe またはその他の名前空間/dll を購入してタスクを達成できます。

score 2 · Accepted Answer

無料またはオープンソースのオプションではありませんが、Adobe の別の代替手段として、 webSuperGoo による ABCPdfを検討することもできます。

score 1 · Accepted Answer

あなたの質問のタイトルから、PDFファイルを分割する必要があるだけで、それらはすでにOCRされていると思います。オープンソースの .NET PDF ライブラリがいくつかあります。私は自分のプロジェクトでPDFSharpをうまく使用しました。

以下は、PDFSharp を使用して PDF ドキュメントから各ページを切り取る方法を示す簡単なスニペットです。

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

また、グループ化のためにドキュメント内のテキストにアクセスする必要があると仮定すると、PdfPage.Contents プロパティを使用できます。

score 1 · Accepted Answer

PDFファイルを分割できるiTextSharpライブラリを調べることができます。しかし、実際のpdfを読むにはあまり適していません。したがって、それらをどこで分割するかをどのように知るかはわかりません。

すでにこれを行っている会社があります。kwiktag 会社を調査できます。

score 1 · Accepted Answer

iTextSharp は、.NET 言語の PDF にバーコードを分割、再構築、および適用するのに役立ちます。ドキュメントをOCRできるとは思いませんが、見たことはありません（Abby fine Readerエンジンを使用しました）。

score 0 · Accepted Answer

90 年代後半に hp によって開発された同名の c++ ocr エンジンのTesseract .NET ラッパー (v 2.04.0)をチェックしてください。その創意工夫で賞を受賞しました。

score 0 · Accepted Answer

いくつかのツールを使用できます。次の無料ツールを試してください。

c# - スキャナーで作成された PDF をプログラムで個別の PDF ドキュメントに分割する

6 に答える 6

Related

Reference