c# - C# を使用して PDF を実行可能なテキストに変換する

Question

c#.net の pdf ファイルからテキストを抽出するクラスを持つライブラリはありますか? いくつか試してみましたが、ドキュメントがひどいので、うまくいきませんでした。また、プラスになる画像を抽出するクラスを提供する場合。助言がありますか？事前にthx。

また、既存のアプリケーションに実装できる必要があります。

score 3 · Accepted Answer

PDFKit.NETを試しましたか? 合理的なドキュメントといくつかの良い例があります。サーバー環境向けに設計されているため、少し高価です。

編集これは、 iTextSharpと呼ばれる SourceForge のオープンソースライブラリです。オープンソースプロジェクトでは無料です。私はそれを使用していませんが、有望に見えます。これは、多くのコード例を含むチュートリアルです。

score 1 · Accepted Answer

Docotic.Pdf ライブラリは、PDF ファイルからテキストと画像を抽出できます。

ドキュメント全体から、または一部のページからのみテキストを抽出できます。ライブラリは、プレーンテキストと座標付きのテキストチャンクを抽出できます。

PDF から画像を抽出できます (JPEG および TIFF ファイルとして)。

タスクのサンプルをいくつか示します。

PDF からテキストを抽出する
PDFから画像を抽出する

免責事項: 私は、ライブラリのベンダーである Bit Miracle で働いています。

score 1 · Accepted Answer

ここにはいくつかの方法があります。その多くは、元の PDF の書式設定 (つまり、段落やその他のレイアウト要素) を保持するかどうかによって異なります。

商用ソリューションを検討している場合は、要件を満たす可能性のある 2 つの製品を提供します。1 つは EasyPDF SDK で、ExtractText() および ExtractText2() をシングルショットで呼び出して、PDF からテキストをプレーンテキストとして抽出します。

これらの呼び出しからの出力はかなり単純化されており、元のレイアウト要素の多くが失われることに注意してください。単純なテキスト抽出には適していますが、PDF に表形式のデータが含まれている場合は、あまり適していない可能性があります。

テーブルを扱っている場合は、代わりにリッチテキストとして抽出することをお勧めします。ビジネスドキュメント向けの EasyConverter SDK というツールがあります。

EasyConverter SDK を使用すると、元の PDF のレイアウトが保持されます。

どちらも C# をサポートしているので、興味があれば www.pdfonline.com で評価版をチェックしてみてください。私はベンダーで働いているので、この提案を自分の子供を愛する母親のようなものとして受け止めてください:-) コードスニペットを求めてstackoverflow.comを長い間閲覧してきましたが、最近投稿を開始したばかりです。いずれかの API に関するご質問は、私に知らせていただければお手伝いできます。乾杯！

score 0 · Accepted Answer

画像変換には Snowbound ソフトウェアを使用しました。どうやらテキスト抽出もサポートしているようです。ただし、無料ではありません。

c# - C# を使用して PDF を実行可能なテキストに変換する

4 に答える 4

Related

Reference