毎月の財務記録を読むためにpdfリーダーを使用しています。私が興味を持っているすべての行は、説明で始まり、次に日付 ##/##/####、次に 2 ドルの金額 $#.## $#.## です。
このような:
Gas Station 12/12/2012 $68.00 $485.00
場合によっては、返品またはマイナスの金額を示すために、数字に括弧 $(4.50) が含まれることがあります。この「パターン」に準拠するすべての行を、1 行あたり 4 項目のリストとして返すようにします。そのため、行全体を未定のスペースと、場合によっては価格の括弧で一致させています。
require 'pdf-reader'
reader = PDF.Reader.new("month.pdf")
reader.pages.each do |page|
page.split("\n").each do |line|
if line # MATCHING REGEX HERE
#HANDLE 4 VALUES FROM REGEX
end
end
私がコードをどのように使用したかを知りたい人は、ソースhttps://github.com/danielpclark/INGdirect_pdf_processorを参照してください。銀行データを処理するための独自のプロジェクトで自由に使用してください。