String
Word 文書に含まれるテキストを取得しようとしています。Apache POI
APIを使用して試したコードは次のとおりです。
FileInputStream fis = new FileInputStream(file.getAbsolutePath());
HWPFDocument document = new HWPFDocument(fis);
WordExtractor extractor = new WordExtractor(document);
String fileData = extractor.getText();
fileData
ワードファイルからのデータが含まれている必要があります。
しかし、削除したい無効な文字がいくつかあります。たとえば、単語内の次のテキスト:
Project Name Customer 360
Position Software Engineer
Javaコンソールで印刷されたときのようになります:
Project Name [?]Customer 360[?][?]Position \t [?]Software Engineer
[?]
小さなボックス内のクエスチョン マーク記号はどこにありますか。ここに貼り付けたら出てこないので[?]
そのまま表してました。
代わりに次のように出力したいと思います:
Project Name \t Customer 360 \n Position \t Software Engineer
これにより、このテキストを処理するために本当に必要なタブと改行に関する情報が得られます。
私は知っていてtab
、newline
情報はそこに\t
あり\n
、いくつかの場所ではありますが、いくつかの場所では欠落しています。