c#.net の pdf ファイルからテキストを抽出するクラスを持つライブラリはありますか? いくつか試してみましたが、ドキュメントがひどいので、うまくいきませんでした。また、プラスになる画像を抽出するクラスを提供する場合。助言がありますか?事前にthx。
また、既存のアプリケーションに実装できる必要があります。
c#.net の pdf ファイルからテキストを抽出するクラスを持つライブラリはありますか? いくつか試してみましたが、ドキュメントがひどいので、うまくいきませんでした。また、プラスになる画像を抽出するクラスを提供する場合。助言がありますか?事前にthx。
また、既存のアプリケーションに実装できる必要があります。
PDFKit.NETを試しましたか? 合理的なドキュメントといくつかの良い例があります。サーバー環境向けに設計されているため、少し高価です。
編集これは、 iTextSharpと呼ばれる SourceForge のオープン ソース ライブラリです。オープンソース プロジェクトでは無料です。私はそれを使用していませんが、有望に見えます。 これは、多くのコード例を含むチュートリアルです。
Docotic.Pdf ライブラリは、PDF ファイルからテキストと画像を抽出できます。
ドキュメント全体から、または一部のページからのみテキストを抽出できます。ライブラリは、プレーン テキストと座標付きのテキスト チャンクを抽出できます。
PDF から画像を抽出できます (JPEG および TIFF ファイルとして)。
タスクのサンプルをいくつか示します。
免責事項: 私は、ライブラリのベンダーである Bit Miracle で働いています。
ここにはいくつかの方法があります。その多くは、元の PDF の書式設定 (つまり、段落やその他のレイアウト要素) を保持するかどうかによって異なります。
商用ソリューションを検討している場合は、要件を満たす可能性のある 2 つの製品を提供します。1 つは EasyPDF SDK で、ExtractText() および ExtractText2() をシングル ショットで呼び出して、PDF からテキストをプレーン テキストとして抽出します。
これらの呼び出しからの出力はかなり単純化されており、元のレイアウト要素の多くが失われることに注意してください。単純なテキスト抽出には適していますが、PDF に表形式のデータが含まれている場合は、あまり適していない可能性があります。
テーブルを扱っている場合は、代わりにリッチ テキストとして抽出することをお勧めします。ビジネス ドキュメント向けの EasyConverter SDK というツールがあります。
EasyConverter SDK を使用すると、元の PDF のレイアウトが保持されます。
どちらも C# をサポートしているので、興味があれば www.pdfonline.com で評価版をチェックしてみてください。私はベンダーで働いているので、この提案を自分の子供を愛する母親のようなものとして受け止めてください:-) コードスニペットを求めてstackoverflow.comを長い間閲覧してきましたが、最近投稿を開始したばかりです。いずれかの API に関するご質問は、私に知らせていただければお手伝いできます。乾杯!
画像変換には Snowbound ソフトウェアを使用しました。どうやらテキスト抽出もサポートしているようです。ただし、無料ではありません。