AWS Textract を使用して、イメージを Python のテーブルに変換し、CSV としてダウンロードしたいと考えています。
そこで、AWS のドキュメントとサンプル コードに従いました: https://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/texttract/textract_python_table_parser.py
上記のリンクのコードは、整数のコンマを別の列に分離するようです。以下のエラーを再現するための画像と手順を説明します。
エラーを再現したい場合は、github リポジトリのコードを複製し、cmd/terminal に次のコードを入力します。
python textract_python_table_parser.py <your-image-filename.png>
エラーは以下に添付されているとおりです。
["Amount (USD)"] 列でわかるように、カンマを含む値は ["Transaction Date"] 列に分割されます。pandasでcsvファイルを読んでもうまくいきませんでした。
GitHub リポジトリのどのコード行がコンマ区切りを別の列に分割したのだろうか