2

スキャナーからの PDF ドキュメントがあります。この PDF には、1 日の作業のためにスタッフが記入および署名したフォームが含まれています。すべてのフォーム タイプに OCR テキスト用のバーコードまたは標準領域を配置して、フォーム タイプに基づいてバッチ スキャンをプログラムで個別の PDF ドキュメントに分割できるようにしたいと考えています。

Microsoft .net 2.0 でこれを行いたい

利用可能なオープン ソースの名前空間/dll がない場合は、必要な Adob​​e またはその他の名前空間/dll を購入してタスクを達成できます。

4

6 に答える 6

2

無料またはオープン ソースのオプションではありませんが、Adobe の別の代替手段として、 webSuperGoo による ABCPdfを検討することもできます。

于 2008-12-03T17:51:42.573 に答える
1

あなたの質問のタイトルから、PDFファイルを分割する必要があるだけで、それらはすでにOCRされていると思います。オープン ソースの .NET PDF ライブラリがいくつかあります。私は自分のプロジェクトでPDFSharpをうまく使用しました。

以下は、PDFSharp を使用して PDF ドキュメントから各ページを切り取る方法を示す簡単なスニペットです。

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

また、グループ化のためにドキュメント内のテキストにアクセスする必要があると仮定すると、PdfPage.Contents プロパティを使用できます。

于 2008-12-03T19:21:24.700 に答える
1

PDFファイルを分割できるiTextSharpライブラリを調べることができます。しかし、実際のpdfを読むにはあまり適していません。したがって、それらをどこで分割するかをどのように知るかはわかりません。

すでにこれを行っている会社があります。kwiktag 会社を調査できます。

于 2008-12-03T17:54:27.793 に答える
1

iTextSharp は、.NET 言語の PDF にバーコードを分割、再構築、および適用するのに役立ちます。ドキュメントをOCRできるとは思いませんが、見たことはありません(Abby fine Readerエンジンを使用しました)。

于 2008-12-03T17:54:43.673 に答える
0

90 年代後半に hp によって開発された同名の c++ ocr エンジンのTesseract .NET ラッパー (v 2.04.0)をチェックしてください。その創意工夫で賞を受賞しました。

于 2010-11-05T06:35:58.017 に答える
0

いくつかのツールを使用できます。次の無​​料ツールを試してください。

于 2010-11-05T06:43:21.867 に答える