1

PDFからasp.netのテキストボックスにファイルを抽出したいのですが、プロジェクトhereからこのコードを試しました

PDF からテキストを正常に抽出しましたが、結果は最初に .txt ファイルにエクスポートされ、結果には行がなく、単語間に空白もありません。

これがPDFテキストの例である場合

Hello World
This is the word ----------------------------------------------- This is word too
End of Hello World

結果はこのようになります

HelloWorld Thisistheword Thisiswordto EndofHelloWorld

すべての単語の間にスペースを入れ、すべての行に新しい行を追加するにはどうすればよいですか?

また、このhttp://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NETで、次のコードを見ました。

int totalLen = 68;
float charUnit = ((float)totalLen) / (float)reader.NumberOfPages;
int totalWritten = 0;
float curUnit = 0;

それの用途は何ですか?

編集: さらに検索した後、ここのコメントで解決策を見つけました itextsharp.dll を新しいバージョンに更新する必要があるだけです(私はバージョン 5.4.4.0 を使用しています)、コメントが言うように機能を追加し、結果私が望んでいたように良いです

4

1 に答える 1