ドキュメントの分析には AWS Textract サービスを使用する予定です。現在、境界ボックス形式で結果が得られます。このサービスで正確なpdfレイアウトを取得する方法を知っている人はいますか?
ドキュメント分析のためのOCR Pdfドキュメントテキスト抽出
jobId = startJob(s3BucketName, documentName)
print("Started job with id: {}".format(jobId))
if(isJobComplete(jobId)):
response = getJobResults(jobId)
#print(response)
# Print detected text
for resultPage in response:
for item in resultPage["Blocks"]:
if item["BlockType"] == "LINE":
print ('\033[94m' + item["Text"] + '\033[0m')