docsplit gem を使用すると、PDF やその他のファイル タイプからテキストを抽出できます。たとえば、次の行を使用します。
Docsplit.extract_pages('doc.pdf')
PDFファイルのテキストコンテンツを持つことができます。
私は現在 Rails を使用しており、PDF はリクエストによって送信され、メモリ内に存在します。API とソース コードを調べたところ、ファイルからのみ、メモリからテキストを抽出する方法が見つかりませんでした。
一時ファイルの作成を回避して、この PDF のテキストを取得する方法はありますか?
気が向いたら使っ attachment_fu
ています。