テキストドキュメントから:Documents for synchronous operations can be in PNG or JPEG format. Documents for asynchronous operations can also be in PDF format.
async Textract を使用して PDF ファイルを読み取る Node.js アプリケーションがあります。私のコードは次のようになります。
import * as AWS from 'aws-sdk';
const textract = new AWS.Textract({ region: '<REGION>' });
export const callTextract = (file: File, uuid: string): Promise<any> => {
return new Promise<any>((resolve, reject) => {
const params = {
Document: {
Bytes: file,
},
};
textract.detectDocumentText(params, (err, data) => {
....
resolve(data);
});
})
}
ここにあるファイルは、OS から既に読み取られており、Buffer 形式になっています。最初の 4 バイトから PDF ファイルであることが確認できます (ノード js のバッファーからファイルの種類を検出していますか? )。
<Buffer 25 50 44 46 ... >
表示されるエラーは ですUnsupportedDocumentException
。