PDF を解析するために amazon texttract を使用しようとしていますが、APIで概説されているように、これは非同期操作である必要があります。
使用しているコードは、 githubで見つけたこのコードに従います
リクエストの一部として送信されている通知ハンドラが原因でエラーが発生していることを理解するためにエラーをローカライズしましたが、これは後で結果を取得するときに必要になります。
aws docsが示す手動設定を既に試し、ARN を直接使用したことに注意してください。しかし、同じ問題がありました。
私の s3 バケットは VPC にありますが、png ファイル (別の非同期メソッドを使用) からテキストを抽出できたため、IAM が正しく設定されていると確信しています。これらは追加されたポリシーです。
- AmazonSQSFullAccess
- AmazonS3フルアクセス
- AmazonTexttractFullAccess
- AmazonTexttractServiceRole
- AmazonSNSロール
- AmazonSNSFullAccess
これらは、トピックとキューの作成、そして StartDocumentTextDetection の 2 つのメソッドが使用されています。
// Creates an SNS topic and SQS queue. The queue is subscribed to the topic.
static void CreateTopicandQueue(){
//create a new SNS topic
snsTopicName="AmazonTextractTopic" + Long.toString(System.currentTimeMillis());
CreateTopicRequest createTopicRequest = new CreateTopicRequest(snsTopicName);
CreateTopicResult createTopicResult = sns.createTopic(createTopicRequest);
snsTopicArn=createTopicResult.getTopicArn();
//Create a new SQS Queue
sqsQueueName="AmazonTextractQueue" + Long.toString(System.currentTimeMillis());
final CreateQueueRequest createQueueRequest = new CreateQueueRequest(sqsQueueName);
sqsQueueUrl = sqs.createQueue(createQueueRequest).getQueueUrl();
sqsQueueArn = sqs.getQueueAttributes(sqsQueueUrl, Arrays.asList("QueueArn")).getAttributes().get("QueueArn");
//Subscribe SQS queue to SNS topic
String sqsSubscriptionArn = sns.subscribe(snsTopicArn, "sqs", sqsQueueArn).getSubscriptionArn();
// Authorize queue
Policy policy = new Policy().withStatements(
new Statement(Effect.Allow)
.withPrincipals(Principal.AllUsers)
.withActions(SQSActions.SendMessage)
.withResources(new Resource(sqsQueueArn))
.withConditions(new Condition().withType("ArnEquals").withConditionKey("aws:SourceArn").withValues(snsTopicArn))
);
Map queueAttributes = new HashMap();
queueAttributes.put(QueueAttributeName.Policy.toString(), policy.toJson());
sqs.setQueueAttributes(new SetQueueAttributesRequest(sqsQueueUrl, queueAttributes));
System.out.println("Topic arn: " + snsTopicArn);
System.out.println("Queue arn: " + sqsQueueArn);
System.out.println("Queue url: " + sqsQueueUrl);
System.out.println("Queue sub arn: " + sqsSubscriptionArn );
}
private static void StartDocumentTextDetection(String bucket, String document) throws Exception{
//Create notification channel
NotificationChannel channel = new NotificationChannel()
.withRoleArn(roleArn)
.withSNSTopicArn(snsTopicArn);
S3Object s3ObjectTextract = new S3Object();
s3ObjectTextract.setBucket(bucket);
s3ObjectTextract.setName(document);
StartDocumentTextDetectionRequest req = new StartDocumentTextDetectionRequest()
.withDocumentLocation(new DocumentLocation()
.withS3Object(s3ObjectTextract))
.withJobTag("DetectingText")
.withNotificationChannel(channel);
System.out.println("Found the document: " + document);
System.out.println(req.toString());
StartDocumentTextDetectionResult startDocumentTextDetectionResult = textract.startDocumentTextDetection(req);
startJobId=startDocumentTextDetectionResult.getJobId();
}
これは、エラーのスタック トレースです。
{DocumentLocation: {S3Object: {Bucket: <bucketname>,Name: <filename>,}},JobTag: DetectingText,NotificationChannel: {SNSTopicArn: <Arn>,RoleArn: <arn}}
Exception in thread "main" com.amazonaws.services.textract.model.InvalidParameterException: Request has invalid parameters (Service: AmazonTextract; Status Code: 400; Error Code: InvalidParameterException; Request ID: <>)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.handleErrorResponse(AmazonHttpClient.java:1712)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.executeOneRequest(AmazonHttpClient.java:1367)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.executeHelper(AmazonHttpClient.java:1113)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.doExecute(AmazonHttpClient.java:770)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.executeWithTimer(AmazonHttpClient.java:744)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.execute(AmazonHttpClient.java:726)
at com.amazonaws.http.AmazonHttpClient$RequestExecutor.access$500(AmazonHttpClient.java:686)
at com.amazonaws.http.AmazonHttpClient$RequestExecutionBuilderImpl.execute(AmazonHttpClient.java:668)
at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:532)
at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:512)
at com.amazonaws.services.textract.AmazonTextractClient.doInvoke(AmazonTextractClient.java:816)
at com.amazonaws.services.textract.AmazonTextractClient.invoke(AmazonTextractClient.java:783)
at com.amazonaws.services.textract.AmazonTextractClient.invoke(AmazonTextractClient.java:772)
at com.amazonaws.services.textract.AmazonTextractClient.executeStartDocumentTextDetection(AmazonTextractClient.java:738)
at com.amazonaws.services.textract.AmazonTextractClient.startDocumentTextDetection(AmazonTextractClient.java:708)
at AnalyzeDocumentAsync.StartDocumentTextDetection(AnalyzeDocumentAsync.java:279)
at AnalyzeDocumentAsync.ProcessDocument(AnalyzeDocumentAsync.java:158)
at AnalyzeDocumentAsync.main(AnalyzeDocumentAsync.java:91)
Process finished with exit code 1