ruby-on-rails - docsplit を使用してメモリ内のドキュメントからテキストを抽出する

Question

docsplit gem を使用すると、PDF やその他のファイルタイプからテキストを抽出できます。たとえば、次の行を使用します。

 Docsplit.extract_pages('doc.pdf')

PDFファイルのテキストコンテンツを持つことができます。

私は現在 Rails を使用しており、PDF はリクエストによって送信され、メモリ内に存在します。API とソースコードを調べたところ、ファイルからのみ、メモリからテキストを抽出する方法が見つかりませんでした。

一時ファイルの作成を回避して、この PDF のテキストを取得する方法はありますか?

気が向いたら使っ attachment_fuています。

score 3 · Accepted Answer

一時ディレクトリを使用します。

require 'docsplit'

def pdf_to_text(pdf_filename)
  Docsplit.extract_text([pdf_filename], ocr: false, output: Dir.tmpdir)

  txt_file = File.basename(pdf_filename, File.extname(pdf_filename)) + '.txt'
  txt_filename = Dir.tmpdir + '/' + txt_file

  extracted_text = File.read(txt_filename)
  File.delete(txt_filename)

  extracted_text
end

pdf_to_text('doc.pdf')

ruby-on-rails - docsplit を使用してメモリ内のドキュメントからテキストを抽出する

2 に答える 2

Related

Reference