問題タブ [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
node.js - Textract 非同期読み取り PDF
テキストドキュメントから:Documents for synchronous operations can be in PNG or JPEG format. Documents for asynchronous operations can also be in PDF format.
async Textract を使用して PDF ファイルを読み取る Node.js アプリケーションがあります。私のコードは次のようになります。
ここにあるファイルは、OS から既に読み取られており、Buffer 形式になっています。最初の 4 バイトから PDF ファイルであることが確認できます (ノード js のバッファーからファイルの種類を検出していますか? )。
表示されるエラーは ですUnsupportedDocumentException
。
python - Amazon Textract を使用して複数ページのドキュメント PDF から同期的にテキストを検出して分析する
回答https://stackoverflow.com/a/62174368/8117673
さらなる質問は、Amazon Textract によるテキスト検出の精度に影響しますか?
Amazon Textract からより良い結果を得るには、画像を前処理する必要がありますか?