PDFファイルのリストをテキストに変換するためにLinux関数を使用しました。
指示:
pdftotext -htmlmeta
これは、ほとんどのファイルでうまく機能します。
しかし、それらの一部については、空のテキスト ファイルが返されます。
私の失敗したpdfファイルは暗号化されておらず、ユーザー/パスワードによって保護されておらず、読み取り専用ではありませんでした.
PDF からテキストへの変換は、明確に定義されたプロセスではありません。PDF入力に応じて、うまく機能することも、まったく機能しないこともあります。
どうしてこれなの?PDF のタスクは、主にドキュメントの外観を表すことであり、テキストの内容を表すことではないためです。PDF は、位置情報を含む純粋なテキストから、テキストの文字のグリフの純粋なグラフィックまで、あらゆるものになります。後者の場合、テキスト情報を受け取るために、入力に対して OCR を実行する必要があります。これは、 のようなツールでは行われませんpdftotext
。
PDF 内のテキストがファイル全体に散らばっている場合があります。たとえば、最初にすべての標準フォントの文字が PDF に記載され、その後ファイルの後半ですべてのイタリック体の文字が記載されているためです (もちろん、位置情報が含まれているため、ページ上のテキスト全体に標準文字とイタリック体が混在していても、視覚的な表現の読者はこれに気付かないでしょう)。この混乱を流暢なテキストに再配置することは、非常に多くのコンバーターができるわけではない主要なタスクです。
したがって、できることは、PDF からテキストへのコンバーターをさらにいくつか試すこと (他よりも優れているものもあれば、特定の入力に対してのみ優れているものもあります) を試すか、PDF ファイルではなく別のソースからテキストを取得できることを確認することだけだと思います。