ユーザーが行うことは、自分のマシンで PDF ドキュメントを選択し、それを自分の Web サイトにアップロードして、Web サイトに表示する HTML ドキュメントに変換することです。ドキュメントは変換後にデータベースに保存されます。
PDF を HTML に変換する最良の方法は何ですか?
私は、ユーザーが「ニュース」記事を pdf として作成し、それをサーバーにアップロードして HTML に変換し、Web サイトに表示するという要件を受け取りました。
ユーザーが行うことは、自分のマシンで PDF ドキュメントを選択し、それを自分の Web サイトにアップロードして、Web サイトに表示する HTML ドキュメントに変換することです。ドキュメントは変換後にデータベースに保存されます。
PDF を HTML に変換する最良の方法は何ですか?
私は、ユーザーが「ニュース」記事を pdf として作成し、それをサーバーにアップロードして HTML に変換し、Web サイトに表示するという要件を受け取りました。
ドキュメントを PDF として保存できるドキュメント作成ソフトウェアは、ドキュメントを HTML として保存できます。問題は、ユーザーがリッチ ドキュメント (多数の埋め込み画像) を作成し、その結果複数のファイルが作成されることであり、これらのドキュメントのアップロードをユーザーにとってできるだけ簡単にしたいという要求から生じると想定しています。
おそらくこれを行うことができる変換パッケージは多数ありますが、リッチコンテンツについて話しているときは、テキストと画像について話している. これらの画像はどこかに保存し、何らかの方法で提供する必要があり、どのような変換方法を使用する場合でも、すべての画像ソースを調べて、サーバー上の有効な場所を指していることを確認する必要があります.
これを行う別の方法をチームに提案したいと思います: コンテンツを公開するための多くのブログ API の 1 つを実装します。Windows Live Writer や Microsoft Word など、これらの API を使用して Web サイトにコンテンツを直接公開する無料の商用ソフトウェア パッケージがあります。ユーザーは、コンテンツを作成して Web サイトに直接アップロードするだけで済みます。最初に PDF として公開してからアップロードする必要はありません。そのため、プロセスはユーザーにとって非常にスムーズになり、変換コードの開発や購入に何千ドルも費やす必要のない形式で投稿を取得できます.
最も一般的な 2 つの API は、MetaWeblog APIとMovable Type APIです。どちらも非常にシンプルで実装が簡単です。この方法は、あなたが考えていることよりもはるかに優れた代替手段になると思います。
PDF を HTML 文字列に変換することが必ずしも最良のアイデアであるとは思いません。特に PDF としてエクスポートする場合はなおさらです。PDF ファイルには画像などのバイナリ要素が含まれていることが多いため、Base64 などのエンコーディングを介して ASCII に変換することをお勧めします。そうすれば、DB のテキスト フィールドに保存してから元に戻すことができる ASCII 文字列が得られます。主な要件についてさらに詳しく教えてください。
私の推奨は、可能であればそのようにしないことです(ただし、マネージャーがどのようなものかは誰もが知っています)ので...
PDF を HTML に/から変換することは避けてください (商用のソリューションが見つからない限り、ほぼ不可能になるため) 代わりに、既に述べたように変換し、エンコードされた Base64 文字列または BLOB として保存することをお勧めします。またはデータベース内の他のバイナリ形式を作成し、ブラウザ用の PDF ビュー プラグインを使用してユーザーに表示します。
必要なのは、「PDF から HTML へ」の単純な Google 検索でした: http://www.gnostice.com/pdf2manyOverview_x.asp。他にもいると思います。
そのため、「可能」ではありますが、これが最善のコンテンツ管理ソリューションではないことを上司に説明することをお勧めします。
iTextSharpを使用して PDF コンテンツを読み取ってみませんか? 次に、バイナリ PDF とテキスト コンテンツの両方をデータベースに保存できます。次に、ユーザーがコンテンツを検索して PDF をダウンロードできるようにします。
DynamicPDF を調べる必要があります。まさにこの目的を果たすためのコンバーター (現在はベータ版) があります。私たちは彼らの製品を使用して大きな成功を収めてきました (特に、Reporting Services レポートを PDF に直接ダンプする場合)。