0

これについては助けが必要です...特にどこから始めればよいかわからないので..私はITの学部生であり、グループメートと一緒に、現在、会社でオンザジョブトレーニングを受けています。

シナリオ:会社から、レポートを生成してデータベースに保存するプログラムを作成するように依頼されました。使用されるデータベースはMySQLです。使用する言語については、VB.Net、Java、PHPを検討しています。

プログラムは次のことができる必要があります:

  1. 電子メールでオフィスに送信されるレポートを生成します
  2. データベースに保存する
  3. すべてのレポートを収集し、それらのレポートを照合します
  4. 新しいレポートを生成し、それを本社に送信します
  5. 次に、それを独自のデータベースに保存します...

今のところ、プログラムの実行方法と、テキストファイル(ワードドキュメントまたはPDFファイルのいずれか)からデータを読み取って抽出する機能を備えた使用言語を決定しようとしています。

同社はまた、プログラムが将来の拡張に備えてオンラインに対応できるようにしたいと考えています。

今、私たちの問題は

  1. Java、PHP、VBのいずれかを使用してPDFまたはWordファイルからデータを抽出し、それをMySQL DBに保存する方法はありますか?
    • ある場合、サードパーティのソフトウェアを使用せずに実装できますか?
    • PDFまたはWordファイルタイプのいずれかを使用することを選択した理由は、ファイルがアーカイブ目的で印刷可能である必要があるためです。
  2. 上記の問題を解決するために、どのプログラミング言語を簡単に使用できますか?

    私が提供している情報が少し混乱している場合は、お詫び申し上げます。今週、会社と話ができたら、追加情報を提供します。

    投稿方法に問題がありましたらご容赦ください。私はあなたに私ができる限りの情報を提供するために最善を尽くしています。

4

2 に答える 2

1

私が仕事で使っているJavaについてお答えします。

Word ファイルからテキストを簡単に抽出したり、Apache POIを使用して新しい Word ファイルを作成したりできます

PDFに関しては、iTextまたはPDFBoxの両方が非常にうまく機能します。

于 2012-06-20T08:26:49.383 に答える
0

サードパーティのソフトウェアを使用できないのはなぜですか? できれば、How to read PDF files using Java?のようなものをお勧めします。.

または、.doc ファイルを読み取るには: http://www.roseindia.net/tutorial/java/poi/readDocFile.html


とにかく、サードパーティ製のツールを使用できない場合は、仕様を読んで、PDF、DOC、および DOCX ファイルからテキストを抽出する方法を見つけてみませんか?

ここで DOC 仕様を見つけることができます: http://msdn.microsoft.com/en-us/library/cc313118.aspx

ここでは、PDF 形式の仕様を見つけることができます: http://www.adobe.com/devnet/pdf/pdf_reference.html

幸運を!

于 2012-06-20T08:29:47.740 に答える