3

次のコマンドを使用してPDFファイルをプレーンテキストファイルに変換しようとしています

soffice --headless --convert-to txt xyz.pdf --outdir ~/

ただし、変換されたファイルにはテキストは含まれていませんが、認識されていない文字が多数含まれています。以下はそれが作成するテキストの一部です

    PK^C^D^T^@^@^H^@^@Ås<89>A<85>l9<8a>.^@^@^@.^@^@^@^H^@^@^@mimetypeapplication/vnd.oasis.opendocument.spreadsheetPK^C^D^T^@^@^H^@^@Ås<89>A4éæSq^B^@^@q^B^@^@^H^@^@^@meta.xml<?xml version="1.0" encoding="UTF-8"?>
<office:document-meta xmlns:office="urn:oasis:names:tc:opendocument:xmlns:office:1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:meta="urn:oasis:names:tc:opendocument:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" xmlns:grddl="http://www.w3.org/2003/g/data-view#" office:version="1.2"><office:meta><meta:document-statistic meta:table-count="1" meta:cell-count="2103" meta:object-count="0"/><meta:generator>LibreOffice/3.6$Linux_x86 LibreOffice_project/360m1$Build-102</meta:generator></office:meta></office:document-meta>PK^C^D^T^@^H^H^H^@Ås<89>A^@^@^@^@^@^@^@^@^@^@^@^@^L^@^@^@settings.xmlµWÛRâ@^P}߯ æ]^C¨,¤^@^K±\ÝeÕ"è^Þ&IC¦<9c>L§æBd¿~'^D,^WC­Fç»...2<97>s:§»ÏLú§<8f>)o,A*<86>b@Z<87>MÒ^@^QaÌÄb@îf^W^G]r:üÔÇù<9c>EàÇ^X<99>^T<84>>P µ]¢^Zv»P~9= F
^_©bÊ^W4^EåëÈÇ^LÄv<9b>ÿ|µ¿&+G^^9^S^O^C<92>h<9d>ù<9e><97>çùa~t<88>ráµz½<9e>·<9e>Ý.<8d>PÌÙâµTåêçT<88>øDTl(<83>Y<93>µ<9b>Íc¯|&<8d>M<90>Ϥi<93>áV<87>íë^Oû^[<82>òç<80>iH^Km^Z<9b>á"´^A±<94>þ<92>Aþ¤^Z©Ú÷ï<9e>{¦XÈa$<81>Î0#ÛI½Êì$^S<9a>^L<9b>}ï%È<9b><80>'0×n<90>^?°X'UÐíæq·Û{7þ%°ER^Y{·Ó9i<9d>T^ST^L^V)y}^RË^A#©¶%ñ<96>lN<90>ÆS 1

PDFファイルをHTMLまたはDOCに変換しようとしても同じです

私が間違っていることは何ですか?

4

1 に答える 1

-1

「txt」の後に「Text」を入れてみてください。例えば:

libreoffice --invisible --convert-to txt:Text filename.doc

「libreoffice」と「soffice」が十分に同じであるとします。

于 2013-01-04T14:57:50.917 に答える