4

PDF からテキストを抽出するための適切なライブラリはありますか? 必要があれば喜んで支払います。

C# または従来の ASP (VBScript) で動作するものが理想的であり、PDF からページを分離できる必要もあります。

この質問には、特にpdftotextなどの興味深いものがいくつかありましたが、可能であれば、外部コマンドライン アプリの呼び出しを避けたいと思います。

4

5 に答える 5

4

Windows に組み込まれている IFilter インターフェイスを使用して、サポートされている任意のファイル タイプからテキストとプロパティ (作成者、タイトルなど) を抽出できます。これは COM インターフェイスなので、.NET 相互運用機能を使用する必要があります。

また、Adobe から無料の PDF IFilter ドライバーをダウンロードする必要があります。

于 2008-09-05T21:12:38.977 に答える
0

Asposeを使用して良い結果が得られました。

于 2008-09-05T21:23:28.373 に答える
0

ここに良いリストがあります: PDF/C# 用のオープン ソース ライブラリ

これらのほとんどは PDF の作成を対象としていますが、読み取り機能も備えている必要があります。

これもあります:iText

以前は iText でしか遊んだことがありません。主要なものは何もありません。

于 2008-09-05T21:03:13.027 に答える
0

承認された回答への追加: テキストのインデックス作成のために Adob​​e IFilter を置き換える代替の商用ソリューションもあります (同様の API を提供しますが、追加のプレミアム機能も提供します)。

  1. Foxit PDF IFilter : Adob​​e のプラグインと比較して、はるかに高速なテキストのインデックス作成を提供します。
  2. PDFLib PDF iFilter : 破損した PDF ドキュメントのサポートと、独自のクエリを実行するための追加の API が含まれています。

マネージド .NET アプリと従来の ASP や VB6 などのレガシー プログラミング言語の両方から使用できる単一のツールを探している場合は、.NET と ActiveX/COM API の両方を提供する商用のByteScout PDF Extractor SDKが適しています。 .

免責事項: 私は ByteScout で働いています

于 2015-02-24T11:43:46.033 に答える
0

Docotic.Pdf ライブラリを使用して、PDF ドキュメントから書式設定されたテキストまたはプレーン テキストを抽出できます。

ライブラリは、任意のバージョンの PDF ドキュメントを読み取ることができます (最新の公開された標準まで)。ページの抽出もライブラリでサポートされています。

サンプル コードへのリンク:

免責事項: 私はライブラリのベンダーで働いています。

于 2012-01-21T22:22:31.407 に答える