私はいくつかの一般的なテキストを読む必要があるプロジェクトに取り組んでいます...私は一般的なテキストを読むことができ、それを.csvファイルに変換することもできるので、任意のAPIを探しています... Windows OS 上の Java...
- - - - - - - - - - - - - もっと詳しく - - - - - - - - - - - -------------------------------------------------- --------------- 明確にさせてください:
私はpdf文書を持っていると仮定します。Print to Generic text printer オプションを使用して、その形式のファイルを取得する予定です。最後に、この Generic Text Format ファイルをプログラムで読み取れるようにする API を使用する予定です。この汎用テキスト ファイルからテキストを抽出するつもりです。
したがって、どのファイル (.doc/.pdf/.xls など) でも、印刷オプションを使用して Generic Text Format ファイルを作成するつもりです。次に、コードを実行してそれらのファイルを読み取り、いくつかの情報を抽出します。
PS: 標準フィールドを含むステータス レポート フォームがあるとします。Ok。ただし、.pdf で提出する人もいれば、.doc で提出する人も、テキスト形式で提出する人もいます。ただし、すべてのドキュメントには同じフィールドが含まれていますが、おそらくレイアウトが異なります。
今、私は汎用的なソリューションを探しています。これにより、すべてのファイルの種類を汎用のテキスト ファイル形式に変換し、いくつかのロジックを適用してステータス レポート フィールドを抽出することができます。