1

great_expectations セットアップ:

新しい仮想環境を作成しました 必要なパッケージをインストールしました:

pip install boto3
pip install fsspec
pip install s3fs

構成の更新されたデータ ソース: great_expectations.yml

datasources:
  pandas_s3:
    class_name: PandasDatasource

この問題を再現する手順:

> great_expectations init
Would you like to profile new Expectations for a single data asset within your new Datasource? [Y/n]: Y
Enter the path of a data file (relative or absolute, s3a:// and gs:// paths are ok too)
: s3://my-bucket-name/

We could not determine the format of the file. What is it?
    1. CSV
    2. Parquet
    3. Excel
    4. JSON
: 2

以下のエラーを取得:

ホスト s3.amazonaws.com:443 ssl:True に接続できません [SSLCertVerificationError: (1, '[SSL: CERTIFICATE_VERIFY_FAILED] 証明書の検証に失敗しました: ローカル発行者証明書を取得できません (_ssl.c:1123)')]

注: AWS のセットアップが完了しました。~/.aws には、以下の内容の資格情報ファイルがあります。

output = json
region = us-east-1
aws_access_key_id = api-key
aws_secret_access_key = secret-key
aws_session_token = sesssion-token
aws_default_acl = None

上記と同じ設定で、

注: 以下のコードは正常に動作します。

import boto3
import io
import pandas as pd

def pd_read_s3_parquet(key, bucket, s3_client=None, **args):
    if s3_client is None:
        s3_client = boto3.client('s3')
    obj = s3_client.get_object(Bucket=bucket, Key=key)
    return pd.read_parquet(io.BytesIO(obj['Body'].read()), **args)

print(pd_read_s3_parquet(key="books.parquet", bucket="books-bucket-ge"))

そのため、ge ライブラリを介した接続が邪魔になります。

test_yaml_config を使用した V3 batch_request API で同じ問題に直面しています。

バージョン 0.13.10 を使用

これでブロックされました。この問題を解決する方法を提案してください。ありがとう!

4

1 に答える 1